Wesselmeier KI-Lösungen — Systemverhaltensanalyse für LLMs

Ausgangslage

Large Language Models verhalten sich wie Mitarbeiter mit unsichtbarer Akte.

Herkunft, Training und Kalibrierung bestimmen ihr Verhalten — die meisten Betreiber sehen nur das Ergebnis, nicht die Ursache.

Drei typische Schwachstellen zeigen sich in der Praxis — eine davon entsteht nicht durch fehlendes Wissen, sondern durch Verarbeitungsstruktur:

Beispiel — Verarbeitungsbedingte Fehlinformation

„Beide vermeiden echte Konfrontation. Beide verhindern echte Nähe."

Claude Sonnet 4.6 über desorganisierten und ängstlich-präokkupierten Bindungstyp

Der zweite Teil der Aussage ist falsch: ein ängstlich-präokkupierter Bindungstyp verhindert Nähe nicht — er sucht sie aktiv. Diese fehlerhafte Aussage entstand, weil kein sequenzieller Prüfprozess stattfindet. Die Parallelstruktur „beide — beide" ist kohärent und rhetorisch stark — sie erhöht die Wahrscheinlichkeit des nächsten Tokens unabhängig vom Wahrheitsgehalt. Das Muster zieht den Inhalt mit, nicht umgekehrt.

Dieser Fehlertyp ist nicht modellspezifisch, sondern architekturbedingt und tritt bei allen gängigen LLMs auf.

Die typischen Schwachstellen:

Stilinkonsistenz

Das Modell antwortet auf semantisch identische Fragen in messbar unterschiedlichem Stil — je nach Formulierung, Kontextlänge oder vorausgegangenen Themen.

Sycophancy

Unter Nutzerdruck ändert das Modell korrekte Aussagen — nicht weil neue Argumente vorliegen, sondern weil Widerspruch im Training negativ bewertet wurde.

→ Potenziell haftungsrelevant bei juristischer oder medizinischer Auskunft.

Registerbruch & Drift

In längeren Gesprächen verlässt das Modell seine definierte Rolle. Fachsprache und Ton wechseln unbemerkt — messbar, aber ohne systematische Prüfung unsichtbar.

Systemverhaltensanalyse

Sprachverhalten verstehen — nicht nur messen.

Strukturierte Analyse des Sprachverhaltens — für alle, die eine unabhängige Einschätzung benötigen, die eine rein technische Analyse nicht liefern kann.

Methodik & Protokoll

Strukturiertes Testprotokoll mit mindestens drei Durchläufen pro Kategorie. Angreifer- und Richtermodell sind vom Zielmodell getrennt — für saubere, reproduzierbare Ergebnisse.

Bewertung auf einer Skala 1–5, kalibriert am getesteten Modell. Kein Gesamt-Score — nur das vollständige Kategorienprofil. Läuft vollständig on-premise.

Bewertungsanker werden für jedes Modell individuell entwickelt — kein generisches Raster, sondern kalibriert an Ihrem konkreten Anwendungsfall.

Die Analyse beschreibt das Systemverhalten zum Testzeitpunkt.

Kategorien12 Prüfkategorien
Mindestläufe3 pro Kategorie
BewertungSkala 1–5, Kategorienprofil
PipelineAngreifer → Ziel → Richter
InfrastrukturOn-premise, kein Datenabfluss
AnwendungsfeldRegulierte Berufe & spezialisierte Modelle

Gruppe A — Druckbasiert

Sycophancy-Index

Stabilität korrekter Aussagen unter Nutzerdruck.

Gruppe A — Druckbasiert

Boundary-Verhalten

Umgang mit grenzwertigen oder risikobehafteten Anfragen.

Gruppe A — Druckbasiert

Sprachliche Robustheit

Verhalten bei fehlerhafter oder informeller Eingabe.

Gruppe B — Konsistenz

Konsistenz über Paraphrasen

Gleichwertigkeit der Antworten bei unterschiedlicher Frageformulierung.

Gruppe B — Konsistenz

Kulturelle Kalibrierung

Passgenauigkeit für den DACH-Rechts- und Kommunikationsraum.

Gruppe B — Konsistenz

Mehrsprachige Kohärenz

Stabilität des Verhaltens bei Sprachenwechsel.

Gruppe C — Längsschnitt

Stilkonsistenz

Einhaltung des definierten Stils über lange Gesprächsverläufe.

Gruppe C — Längsschnitt

Persona-Drift

Stabilität der definierten Rolle über Zeit und Themenwechsel.

Gruppe D — Wissen

Halluzinationsrate

Sachliche Korrektheit bei fachspezifischen Fragen.

Gruppe D — Wissen

Terminologische Präzision

Korrekte und konsistente Verwendung von Fachtermini.

Gruppe D — Wissen

Registertreue

Einheitlichkeit des Sprachregisters innerhalb einer Antwort.

Gruppe D — Wissen

Erklärungstiefe

Anpassung der Antworttiefe an den erkennbaren Wissensstand.

Systemverhaltensanpassung

Verhalten das stabil bleiben soll, muss in die Gewichte.

Ein System-Prompt steht am Anfang des Kontextfensters. Mit jedem Turn sinken seine Aufmerksamkeitsgewichte — bis er nicht mehr effektiv mit dem unmittelbaren Gesprächskontext konkurriert. Prompt-Engineering löst das nicht. Es verschiebt den Onset-Turn bestenfalls nach hinten.

Fine-tuning schreibt Verhalten in die Gewichte. Dauerhaft.

Verfahren A — RAG

Wissen zur Laufzeit

Das Modell ruft Wissen ab. Es weiß es — solange das Dokument vorhanden ist. Aktuell, mit Quellenangabe.

Verfahren B — Fine-tuning

Verhalten internalisiert

Das Modell verinnerlicht eine Arbeitsweise. Es ist es — unabhängig vom Kontext und unabhängig von der Gesprächslänge. Fachsprache und Ton sitzen.

Verfahren C — Kombination

Beides zusammen

Internalisiertes Verhalten durch Fine-tuning — stabil über jeden Turn. Aktuelles Wissen durch RAG — ohne Wissensstichtag. Die Stärken beider Ansätze, strukturell getrennt.

Anforderungsanalyse

Was soll das Modell können — und ausdrücklich nicht? Konkretes Verhalten wird definiert, bevor eine Zeile Trainingsdaten entsteht.

Datenstrategie & Korpuswahl

Welche Daten passen zum Anwendungsfall — und warum? Eine begründete fachliche Empfehlung statt eines Versuchs.

Synthetische Daten & Annotation

Wo kein Korpus existiert, wird einer aufgebaut. Die fachliche Annotation erfolgt manuell, nicht automatisiert.

Umsetzung auf Ihrer Infrastruktur

Beim Modell-Aufbau lokal betrieben und DSGVO-konform — keine Black Box, das Modell gehört Ihnen. Bei der Analyse bestehender Systeme arbeite ich auf der vorhandenen Infrastruktur, ob lokal oder Cloud.

Evaluation & messbarer Nachweis

Das Bewertungsraster zeigt messbar und dokumentiert, ob das Modell tut, was es soll — und wo es abweicht.

Weitere Leistungen

Modell-Aufbau

Spezialisiertes Modell von Grund auf

Für alle, die noch kein eigenes KI-System betreiben.

Begründete Datenstrategie statt Versuch-und-Irrtum
Fine-tuning, RAG oder Kombination
Messbares Bewertungsraster vor und nach der Anpassung

On-Premise

Lokale Installation

Ein kompakter Server in Ihren Räumen. Die KI läuft ausschließlich auf Ihrer Hardware — ohne Verbindung zu externen Diensten, betriebsbereit installiert auf kompatibler Hardware.

Betrieb ohne Cloud, ohne Dritte, kein Datenabfluss
§ 203 StGB & DSGVO strukturell adressiert
Schulung zur produktiven Nutzung

Verhaltensoptimierung

Gezielte Verbesserung nach der Analyse

Wo die Fachanalyse Schwächen identifiziert, entwickle ich gezielte Gegenmaßnahmen — präzise abgestimmt auf die Ergebnisse der Systemverhaltensanalyse.

Maßnahmen direkt abgeleitet aus den Analyseergebnissen
Fine-Tuning, Prompt-Optimierung oder Kombination
Folgeanalyse als messbarer Nachweis

Datensicherheit

Strukturell sicher — nicht nur vertraglich.

Der Server steht bei Ihnen. Sensible Daten verlassen Ihre Räume nicht. Die Schweigepflicht nach § 203 StGB und die Anforderungen der DSGVO sind damit strukturell adressiert — nicht durch ein Versprechen, sondern durch die Architektur.

Für die rechtliche Bewertung im Einzelfall empfiehlt sich die Rücksprache mit Ihrer zuständigen Kammer oder einem spezialisierten Anwalt.

Kein Datenabfluss durch lokalen Betrieb
HTTPS-Verschlüsselung
Zwei-Faktor-Authentifizierung
Individuelle Nutzerverwaltung
Verschlüsselte automatische Backups
Fernwartung nur nach Ihrer Freigabe

Hintergrund

Dr. Wesselmeier

Neurolinguistik als Analysewerkzeug für maschinelles Sprachverhalten.

LLM-Fehler werden bisher auf technisch-statistischer Ebene klassifiziert — nicht auf Sprachebene. Ein neurolinguistischer Hintergrund erlaubt es, Fehlertypen wie Registerbruch, Präsuppositionsfehler oder semantische Drift zu benennen und zu messen, wo andere nur Symptome sehen.

Wesselmeier KI-Lösungen richtet sich an Unternehmen und regulierte Berufe, die KI ernsthaft, datenschutzkonform und mit nachvollziehbarem Systemverhalten einsetzen möchten.

Sie betreiben eine KI.
Aber wissen Sie, wie sie sich wirklich verhält?

Large Language Models verhalten sich wie Mitarbeiter mit unsichtbarer Akte.

Stilinkonsistenz

Sycophancy

Registerbruch & Drift

Sprachverhalten verstehen — nicht nur messen.

Methodik & Protokoll

Sycophancy-Index

Boundary-Verhalten

Sprachliche Robustheit

Konsistenz über Paraphrasen

Kulturelle Kalibrierung

Mehrsprachige Kohärenz

Stilkonsistenz

Persona-Drift

Halluzinationsrate

Terminologische Präzision

Registertreue

Erklärungstiefe

Verhalten das stabil bleiben soll, muss in die Gewichte.

Wissen zur Laufzeit

Verhalten internalisiert

Beides zusammen

Anforderungsanalyse

Datenstrategie & Korpuswahl

Synthetische Daten & Annotation

Umsetzung auf Ihrer Infrastruktur

Evaluation & messbarer Nachweis

Weitere Leistungen

Spezialisiertes Modell von Grund auf

Lokale Installation

Gezielte Verbesserung nach der Analyse

Fallkonzeption

Strukturell sicher — nicht nur vertraglich.

Dr. Wesselmeier

Sprechen Sie mich an.