Ein KI-System ist nur so gut wie sein tatsächliches Verhalten — ob im Betrieb oder im Aufbau. Ton, Haltung und Aussagen können driften — mit potenziell haftungsrelevanten Folgen. Wesselmeier KI-Lösungen analysiert mögliche Abweichungen im Sprachverhalten Ihres Modells.
Herkunft, Training und Kalibrierung bestimmen ihr Verhalten — die meisten Betreiber sehen nur das Ergebnis, nicht die Ursache.
Drei typische Schwachstellen zeigen sich in der Praxis — eine davon entsteht nicht durch fehlendes Wissen, sondern durch Verarbeitungsstruktur:
Der zweite Teil der Aussage ist falsch: ein ängstlich-präokkupierter Bindungstyp verhindert Nähe nicht — er sucht sie aktiv. Diese fehlerhafte Aussage entstand, weil kein sequenzieller Prüfprozess stattfindet. Die Parallelstruktur „beide — beide" ist kohärent und rhetorisch stark — sie erhöht die Wahrscheinlichkeit des nächsten Tokens unabhängig vom Wahrheitsgehalt. Das Muster zieht den Inhalt mit, nicht umgekehrt.
Dieser Fehlertyp ist nicht modellspezifisch, sondern architekturbedingt und tritt bei allen gängigen LLMs auf.
Die typischen Schwachstellen:
Das Modell antwortet auf semantisch identische Fragen in messbar unterschiedlichem Stil — je nach Formulierung, Kontextlänge oder vorausgegangenen Themen.
Unter Nutzerdruck ändert das Modell korrekte Aussagen — nicht weil neue Argumente vorliegen, sondern weil Widerspruch im Training negativ bewertet wurde.
In längeren Gesprächen verlässt das Modell seine definierte Rolle. Fachsprache und Ton wechseln unbemerkt — messbar, aber ohne systematische Prüfung unsichtbar.
Strukturierte Analyse des Sprachverhaltens — für alle, die eine unabhängige Einschätzung benötigen, die eine rein technische Analyse nicht liefern kann.
Strukturiertes Testprotokoll mit mindestens drei Durchläufen pro Kategorie. Angreifer- und Richtermodell sind vom Zielmodell getrennt — für saubere, reproduzierbare Ergebnisse.
Bewertung auf einer Skala 1–5, kalibriert am getesteten Modell. Kein Gesamt-Score — nur das vollständige Kategorienprofil. Läuft vollständig on-premise.
Bewertungsanker werden für jedes Modell individuell entwickelt — kein generisches Raster, sondern kalibriert an Ihrem konkreten Anwendungsfall.
Die Analyse beschreibt das Systemverhalten zum Testzeitpunkt.
Stabilität korrekter Aussagen unter Nutzerdruck.
Umgang mit grenzwertigen oder risikobehafteten Anfragen.
Verhalten bei fehlerhafter oder informeller Eingabe.
Gleichwertigkeit der Antworten bei unterschiedlicher Frageformulierung.
Passgenauigkeit für den DACH-Rechts- und Kommunikationsraum.
Stabilität des Verhaltens bei Sprachenwechsel.
Einhaltung des definierten Stils über lange Gesprächsverläufe.
Stabilität der definierten Rolle über Zeit und Themenwechsel.
Sachliche Korrektheit bei fachspezifischen Fragen.
Korrekte und konsistente Verwendung von Fachtermini.
Einheitlichkeit des Sprachregisters innerhalb einer Antwort.
Anpassung der Antworttiefe an den erkennbaren Wissensstand.
Ein System-Prompt steht am Anfang des Kontextfensters. Mit jedem Turn sinken seine Aufmerksamkeitsgewichte — bis er nicht mehr effektiv mit dem unmittelbaren Gesprächskontext konkurriert. Prompt-Engineering löst das nicht. Es verschiebt den Onset-Turn bestenfalls nach hinten.
Fine-tuning schreibt Verhalten in die Gewichte. Dauerhaft.
Das Modell ruft Wissen ab. Es weiß es — solange das Dokument vorhanden ist. Aktuell, mit Quellenangabe.
Das Modell verinnerlicht eine Arbeitsweise. Es ist es — unabhängig vom Kontext und unabhängig von der Gesprächslänge. Fachsprache und Ton sitzen.
Internalisiertes Verhalten durch Fine-tuning — stabil über jeden Turn. Aktuelles Wissen durch RAG — ohne Wissensstichtag. Die Stärken beider Ansätze, strukturell getrennt.
Was soll das Modell können — und ausdrücklich nicht? Konkretes Verhalten wird definiert, bevor eine Zeile Trainingsdaten entsteht.
Welche Daten passen zum Anwendungsfall — und warum? Eine begründete fachliche Empfehlung statt eines Versuchs.
Wo kein Korpus existiert, wird einer aufgebaut. Die fachliche Annotation erfolgt manuell, nicht automatisiert.
Beim Modell-Aufbau lokal betrieben und DSGVO-konform — keine Black Box, das Modell gehört Ihnen. Bei der Analyse bestehender Systeme arbeite ich auf der vorhandenen Infrastruktur, ob lokal oder Cloud.
Das Bewertungsraster zeigt messbar und dokumentiert, ob das Modell tut, was es soll — und wo es abweicht.
Für alle, die noch kein eigenes KI-System betreiben.
Ein kompakter Server in Ihren Räumen. Die KI läuft ausschließlich auf Ihrer Hardware — ohne Verbindung zu externen Diensten, betriebsbereit installiert auf kompatibler Hardware.
Wo die Fachanalyse Schwächen identifiziert, entwickle ich gezielte Gegenmaßnahmen — präzise abgestimmt auf die Ergebnisse der Systemverhaltensanalyse.
Der Server steht bei Ihnen. Sensible Daten verlassen Ihre Räume nicht. Die Schweigepflicht nach § 203 StGB und die Anforderungen der DSGVO sind damit strukturell adressiert — nicht durch ein Versprechen, sondern durch die Architektur.
Für die rechtliche Bewertung im Einzelfall empfiehlt sich die Rücksprache mit Ihrer zuständigen Kammer oder einem spezialisierten Anwalt.
Neurolinguistik als Analysewerkzeug für maschinelles Sprachverhalten.
LLM-Fehler werden bisher auf technisch-statistischer Ebene klassifiziert — nicht auf Sprachebene. Ein neurolinguistischer Hintergrund erlaubt es, Fehlertypen wie Registerbruch, Präsuppositionsfehler oder semantische Drift zu benennen und zu messen, wo andere nur Symptome sehen.
Wesselmeier KI-Lösungen richtet sich an Unternehmen und regulierte Berufe, die KI ernsthaft, datenschutzkonform und mit nachvollziehbarem Systemverhalten einsetzen möchten.