Sie betreiben eine KI.
Aber wissen Sie, wie sie sich wirklich verhält?

Ein KI-System ist nur so gut wie sein tatsächliches Verhalten — ob im Betrieb oder im Aufbau. Ton, Haltung und Aussagen können driften — mit potenziell haftungsrelevanten Folgen. Wesselmeier KI-Lösungen analysiert mögliche Abweichungen im Sprachverhalten Ihres Modells.

Für bestehende KI-Systeme Zwölf Prüfkategorien Reproduzierbar dokumentiertes Testprotokoll
Ausgangslage

Large Language Models verhalten sich wie Mitarbeiter mit unsichtbarer Akte.

Herkunft, Training und Kalibrierung bestimmen ihr Verhalten — die meisten Betreiber sehen nur das Ergebnis, nicht die Ursache.

Drei typische Schwachstellen zeigen sich in der Praxis — eine davon entsteht nicht durch fehlendes Wissen, sondern durch Verarbeitungsstruktur:

Beispiel — Verarbeitungsbedingte Fehlinformation
„Beide vermeiden echte Konfrontation. Beide verhindern echte Nähe."
Claude Sonnet 4.6 über desorganisierten und ängstlich-präokkupierten Bindungstyp

Der zweite Teil der Aussage ist falsch: ein ängstlich-präokkupierter Bindungstyp verhindert Nähe nicht — er sucht sie aktiv. Diese fehlerhafte Aussage entstand, weil kein sequenzieller Prüfprozess stattfindet. Die Parallelstruktur „beide — beide" ist kohärent und rhetorisch stark — sie erhöht die Wahrscheinlichkeit des nächsten Tokens unabhängig vom Wahrheitsgehalt. Das Muster zieht den Inhalt mit, nicht umgekehrt.

Dieser Fehlertyp ist nicht modellspezifisch, sondern architekturbedingt und tritt bei allen gängigen LLMs auf.

Die typischen Schwachstellen:

01

Stilinkonsistenz

Das Modell antwortet auf semantisch identische Fragen in messbar unterschiedlichem Stil — je nach Formulierung, Kontextlänge oder vorausgegangenen Themen.

02

Sycophancy

Unter Nutzerdruck ändert das Modell korrekte Aussagen — nicht weil neue Argumente vorliegen, sondern weil Widerspruch im Training negativ bewertet wurde.

→ Potenziell haftungsrelevant bei juristischer oder medizinischer Auskunft.
03

Registerbruch & Drift

In längeren Gesprächen verlässt das Modell seine definierte Rolle. Fachsprache und Ton wechseln unbemerkt — messbar, aber ohne systematische Prüfung unsichtbar.

Systemverhaltensanalyse

Sprachverhalten verstehen — nicht nur messen.

Strukturierte Analyse des Sprachverhaltens — für alle, die eine unabhängige Einschätzung benötigen, die eine rein technische Analyse nicht liefern kann.

Methodik & Protokoll

Strukturiertes Testprotokoll mit mindestens drei Durchläufen pro Kategorie. Angreifer- und Richtermodell sind vom Zielmodell getrennt — für saubere, reproduzierbare Ergebnisse.

Bewertung auf einer Skala 1–5, kalibriert am getesteten Modell. Kein Gesamt-Score — nur das vollständige Kategorienprofil. Läuft vollständig on-premise.

Bewertungsanker werden für jedes Modell individuell entwickelt — kein generisches Raster, sondern kalibriert an Ihrem konkreten Anwendungsfall.

Die Analyse beschreibt das Systemverhalten zum Testzeitpunkt.

  • Kategorien12 Prüfkategorien
  • Mindestläufe3 pro Kategorie
  • BewertungSkala 1–5, Kategorienprofil
  • PipelineAngreifer → Ziel → Richter
  • InfrastrukturOn-premise, kein Datenabfluss
  • AnwendungsfeldRegulierte Berufe & spezialisierte Modelle
Gruppe A — Druckbasiert

Sycophancy-Index

Stabilität korrekter Aussagen unter Nutzerdruck.

Gruppe A — Druckbasiert

Boundary-Verhalten

Umgang mit grenzwertigen oder risikobehafteten Anfragen.

Gruppe A — Druckbasiert

Sprachliche Robustheit

Verhalten bei fehlerhafter oder informeller Eingabe.

Gruppe B — Konsistenz

Konsistenz über Paraphrasen

Gleichwertigkeit der Antworten bei unterschiedlicher Frageformulierung.

Gruppe B — Konsistenz

Kulturelle Kalibrierung

Passgenauigkeit für den DACH-Rechts- und Kommunikationsraum.

Gruppe B — Konsistenz

Mehrsprachige Kohärenz

Stabilität des Verhaltens bei Sprachenwechsel.

Gruppe C — Längsschnitt

Stilkonsistenz

Einhaltung des definierten Stils über lange Gesprächsverläufe.

Gruppe C — Längsschnitt

Persona-Drift

Stabilität der definierten Rolle über Zeit und Themenwechsel.

Gruppe D — Wissen

Halluzinationsrate

Sachliche Korrektheit bei fachspezifischen Fragen.

Gruppe D — Wissen

Terminologische Präzision

Korrekte und konsistente Verwendung von Fachtermini.

Gruppe D — Wissen

Registertreue

Einheitlichkeit des Sprachregisters innerhalb einer Antwort.

Gruppe D — Wissen

Erklärungstiefe

Anpassung der Antworttiefe an den erkennbaren Wissensstand.

Systemverhaltensanpassung

Verhalten das stabil bleiben soll, muss in die Gewichte.

Ein System-Prompt steht am Anfang des Kontextfensters. Mit jedem Turn sinken seine Aufmerksamkeitsgewichte — bis er nicht mehr effektiv mit dem unmittelbaren Gesprächskontext konkurriert. Prompt-Engineering löst das nicht. Es verschiebt den Onset-Turn bestenfalls nach hinten.

Fine-tuning schreibt Verhalten in die Gewichte. Dauerhaft.

Verfahren A — RAG

Wissen zur Laufzeit

Das Modell ruft Wissen ab. Es weiß es — solange das Dokument vorhanden ist. Aktuell, mit Quellenangabe.

Verfahren B — Fine-tuning

Verhalten internalisiert

Das Modell verinnerlicht eine Arbeitsweise. Es ist es — unabhängig vom Kontext und unabhängig von der Gesprächslänge. Fachsprache und Ton sitzen.

Verfahren C — Kombination

Beides zusammen

Internalisiertes Verhalten durch Fine-tuning — stabil über jeden Turn. Aktuelles Wissen durch RAG — ohne Wissensstichtag. Die Stärken beider Ansätze, strukturell getrennt.

1

Anforderungsanalyse

Was soll das Modell können — und ausdrücklich nicht? Konkretes Verhalten wird definiert, bevor eine Zeile Trainingsdaten entsteht.

2

Datenstrategie & Korpuswahl

Welche Daten passen zum Anwendungsfall — und warum? Eine begründete fachliche Empfehlung statt eines Versuchs.

3

Synthetische Daten & Annotation

Wo kein Korpus existiert, wird einer aufgebaut. Die fachliche Annotation erfolgt manuell, nicht automatisiert.

4

Umsetzung auf Ihrer Infrastruktur

Beim Modell-Aufbau lokal betrieben und DSGVO-konform — keine Black Box, das Modell gehört Ihnen. Bei der Analyse bestehender Systeme arbeite ich auf der vorhandenen Infrastruktur, ob lokal oder Cloud.

5

Evaluation & messbarer Nachweis

Das Bewertungsraster zeigt messbar und dokumentiert, ob das Modell tut, was es soll — und wo es abweicht.

Weitere Leistungen

01
Modell-Aufbau

Spezialisiertes Modell von Grund auf

Für alle, die noch kein eigenes KI-System betreiben.

  • Begründete Datenstrategie statt Versuch-und-Irrtum
  • Fine-tuning, RAG oder Kombination
  • Messbares Bewertungsraster vor und nach der Anpassung
02
On-Premise

Lokale Installation

Ein kompakter Server in Ihren Räumen. Die KI läuft ausschließlich auf Ihrer Hardware — ohne Verbindung zu externen Diensten, betriebsbereit installiert auf kompatibler Hardware.

  • Betrieb ohne Cloud, ohne Dritte, kein Datenabfluss
  • § 203 StGB & DSGVO strukturell adressiert
  • Schulung zur produktiven Nutzung
03
Verhaltensoptimierung

Gezielte Verbesserung nach der Analyse

Wo die Fachanalyse Schwächen identifiziert, entwickle ich gezielte Gegenmaßnahmen — präzise abgestimmt auf die Ergebnisse der Systemverhaltensanalyse.

  • Maßnahmen direkt abgeleitet aus den Analyseergebnissen
  • Fine-Tuning, Prompt-Optimierung oder Kombination
  • Folgeanalyse als messbarer Nachweis
Datensicherheit

Strukturell sicher — nicht nur vertraglich.

Der Server steht bei Ihnen. Sensible Daten verlassen Ihre Räume nicht. Die Schweigepflicht nach § 203 StGB und die Anforderungen der DSGVO sind damit strukturell adressiert — nicht durch ein Versprechen, sondern durch die Architektur.

Für die rechtliche Bewertung im Einzelfall empfiehlt sich die Rücksprache mit Ihrer zuständigen Kammer oder einem spezialisierten Anwalt.

  • Kein Datenabfluss durch lokalen Betrieb
  • HTTPS-Verschlüsselung
  • Zwei-Faktor-Authentifizierung
  • Individuelle Nutzerverwaltung
  • Verschlüsselte automatische Backups
  • Fernwartung nur nach Ihrer Freigabe
Hintergrund

Dr. Wesselmeier

Neurolinguistik als Analysewerkzeug für maschinelles Sprachverhalten.

LLM-Fehler werden bisher auf technisch-statistischer Ebene klassifiziert — nicht auf Sprachebene. Ein neurolinguistischer Hintergrund erlaubt es, Fehlertypen wie Registerbruch, Präsuppositionsfehler oder semantische Drift zu benennen und zu messen, wo andere nur Symptome sehen.

Wesselmeier KI-Lösungen richtet sich an Unternehmen und regulierte Berufe, die KI ernsthaft, datenschutzkonform und mit nachvollziehbarem Systemverhalten einsetzen möchten.

Kontakt

Sprechen Sie mich an.

info@wesselmeier.com