Schlagwort: Halucination

Drei Prompt-Regeln, die KI davon abhalten zu raten — und die Wissenschaft dahinter

Jede neue Modellgeneration wird mit großem Tamtam angekündigt: bessere Benchmarks, höhere Genauigkeitswerte, beeindruckendere Demos. GPT-5 löst komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verblüffender Leichtigkeit. Die Intelligenzkurve steigt und steigt.

Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft — die Ehrlichkeitskurve. Und die hat sich kaum bewegt.

Das ist keine vage philosophische Klage. Es ist ein strukturelles Problem, das in Training, Evaluierung und Einsatz dieser Modelle fest eingebaut ist. Und es trifft genau die Arbeit am härtesten, bei der Menschen zunehmend auf KI setzen: Daten aus Verträgen extrahieren, Rechnungen auswerten, Meetingnotizen zusammenfassen, CRM-Einträge aus unstrukturierten Quellen erstellen.

Dieser Beitrag erklärt, warum die Lücke zwischen Intelligenz und Ehrlichkeit existiert, was die aktuelle Forschung über ihre Ursachen sagt — und vor allem: drei Prompt-Regeln, die Sie heute anwenden können, um KI dazu zu bringen, ehrlich zuzugeben, was sie nicht weiß.


Die Lücke: Intelligenz vs. Ehrlichkeit

Wenn wir sagen, ein Modell sei „schlauer geworden“, meinen wir in der Regel, dass es bei Benchmarks besser abschneidet — Mathematik-Wettbewerbe, Programmieraufgaben, mehrstufige Denkaufgaben. Das sind reale Verbesserungen. Aber Benchmark-Ergebnisse messen die Fähigkeit eines Modells, korrekte Antworten zu geben. Sie messen nicht seine Bereitschaft, „Ich weiß es nicht“ zu sagen.

Tatsächlich bestraft die Anreizstruktur Ehrlichkeit sogar aktiv.

Im September 2025 veröffentlichte OpenAI ein Forschungspapier, das dieses Problem präzise beschreibt. Das Team — darunter Forscher vom Georgia Institute of Technology — untersuchte große KI-Benchmarks und stellte fest, dass die überwiegende Mehrheit binäre Bewertung verwendet: Entweder die Antwort ist korrekt und bekommt einen Punkt, oder sie ist falsch und bekommt null. Entscheidend: Auch die Enthaltung — also „Ich weiß es nicht“ zu sagen — bekommt null. Die mathematische Konsequenz ist eindeutig: Raten erzielt immer einen höheren erwarteten Score als Enthaltung. Ein Modell, das bei jeder unsicheren Frage blufft, wird höher eingestuft als eines, das ehrlich ablehnt.

OpenAIs eigener Blogpost formulierte es anschaulich: Die Situation gleicht einem Multiple-Choice-Test, bei dem eine leere Antwort garantiert null Punkte gibt, aber Raten zumindest eine Chance bietet. Unter diesen Regeln ist die rationale Strategie, immer zu raten — auch wenn man keine Ahnung hat. Und genau das lernen die Modelle.

Das Paper demonstrierte dies mit einem eindrücklichen Beispiel: Nach dem Titel der Doktorarbeit eines seiner eigenen Co-Autoren gefragt, produzierte ein weit verbreitetes Modell bei drei Versuchen drei verschiedene Titel mit voller Überzeugung. Alle drei waren falsch. Dasselbe passierte mit seinem Geburtstag — drei Daten, alle falsch, alle mit unerschütterlicher Zuversicht vorgetragen.

Das ist kein Bug, der gepatcht werden kann. Es ist das natürliche Ergebnis der Optimierung auf reine Genauigkeitsmetriken. Wie die OpenAI-Forscher argumentieren, müssen die gängigen Benchmarks und Leaderboards so umgestaltet werden, dass sie selbstsichere Fehler stärker bestrafen als Unsicherheit. Bis dahin wird jedes Modell, das im Leaderboard aufsteigt, dies teilweise dadurch schaffen, dass es besser blufft.


Warum Modelle konfabulieren: Erkenntnisse aus der Interpretierbarkeitsforschung

Das OpenAI-Paper erklärt das Anreizproblem. Aber was passiert mechanisch im Inneren des Modells, wenn es etwas erfindet?

Anthropics Interpretierbarkeitsforschung — im März 2025 unter dem Titel „Tracing the Thoughts of a Large Language Model“ veröffentlicht — liefert einige der detailliertesten Antworten, die wir haben. Mit etwas, das sie als „Mikroskop“ für KI beschreiben, verfolgten Anthropics Forscher die internen Schaltkreise, die aktiviert werden, wenn Claude eine Frage verarbeitet. Dabei ist anzumerken, dass diese Erkenntnisse spezifisch für Claude 3.5 Haiku sind — andere Modellfamilien könnten Unsicherheit über andere interne Mechanismen handhaben — aber die Muster sind vermutlich allgemein genug, um instruktiv zu sein.

Eine ihrer aufschlussreichsten Entdeckungen betrifft etwas, das man als Default-Verweigerungs-Mechanismus bezeichnen könnte. Bei Claude ist die Verweigerung einer Antwort tatsächlich das Standardverhalten: Die Forscher fanden einen Schaltkreis, der standardmäßig aktiviert ist und das Modell veranlasst, mitzuteilen, dass es nicht genug Informationen hat. Aber wenn das Modell eine „bekannte Entität“ erkennt — etwa Michael Jordan den Basketballspieler — feuert ein konkurrierender Satz von Features und unterdrückt diesen Standard-Schaltkreis, sodass das Modell antworten kann.

Das Problem entsteht, wenn dieser Mechanismus fehlzündet. Wenn das Modell einen Namen erkennt, aber die relevanten Fakten nicht kennt, kann das „bekannte Entität“-Signal trotzdem den „Ich weiß es nicht“-Schaltkreis überschreiben. Das Ergebnis: eine selbstbewusste, detaillierte, komplett erfundene Antwort. In einem Experiment verwendeten die Forscher eine Person namens Michael Batkin — jemanden, der dem Modell unbekannt war und standardmäßig eine Verweigerung auslöste. Als sie aber künstlich die „bekannte Entität“-Features aktivierten oder die „Kann nicht antworten“-Features unterdrückten, halluzinierte Claude prompt — und konsistent —, dass Batkin berühmt sei fürs Schachspielen.

Noch beunruhigender: Anthropic fand Belege dafür, dass Claude, wenn es eine Antwort nicht leicht berechnen kann (etwa den Kosinus einer großen Zahl), sich manchmal in etwas engagiert, was der Philosoph Harry Frankfurt als Bullshitting bezeichnen würde — eine Antwort produzieren, ohne dass intern irgendein Beleg für eine tatsächliche Berechnung vorliegt. Obwohl das Modell behauptete, gerechnet zu haben, zeigten die Interpretierbarkeits-Tools keine Spur einer Berechnung. Wenn man ihm einen Hinweis auf die erwartete Antwort gab, arbeitete Claude rückwärts und konstruierte plausibel aussehende Zwischenschritte, die zum vorgegebenen Ergebnis führen — ein Lehrbuchbeispiel für motiviertes Denken.

Diese Erkenntnisse sind wichtig, weil sie zeigen, dass das Ehrlichkeitsproblem nicht nur eine Frage der Trainingsanreize ist. Die Modelle haben interne Mechanismen, die Unsicherheit eigentlich erkennen sollen — aber diese Mechanismen können von anderen Kräften überschrieben werden, darunter der Drang nach grammatikalischer Kohärenz und der Pattern-Matching-Instinkt, Lücken zu füllen.


Automation Bias: Warum das wichtiger ist, als Sie denken

All das wäre rein akademisch, wenn Menschen KI-Output mit angemessener Skepsis behandeln würden. Tun sie aber nicht.

Automation Bias — die Tendenz, sich übermäßig auf automatisierte Empfehlungen zu verlassen — ist eines der am gründlichsten dokumentierten Phänomene in der Mensch-Computer-Interaktionsforschung. Ein systematisches Review aus dem Jahr 2025, veröffentlicht in AI & Society, analysierte 35 begutachtete Studien aus den Bereichen Gesundheitswesen, Finanzwirtschaft, nationale Sicherheit und öffentliche Verwaltung. Das Muster war domänenübergreifend konsistent: Wenn ein KI-System eine selbstbewusste Antwort liefert, akzeptieren Menschen sie. Sie prüfen weniger. Sie überstimmen ihr eigenes Urteil.

Eine randomisierte klinische Studie mit KI-geschulten Ärzten in Pakistan (veröffentlicht als Preprint im August 2025) machte die Dynamik besonders deutlich. Selbst Ärzte, die 20 Stunden KI-Kompetenztraining absolviert hatten — einschließlich Anleitung zur kritischen Bewertung von KI-Output — waren anfällig für Automation Bias, wenn sie fehlerhaften LLM-Empfehlungen ausgesetzt waren. Das Training half, beseitigte das Problem aber nicht. Selbstbewusst klingender KI-Output hat eine Gravitationskraft, der man schwer widerstehen kann, selbst wenn man weiß, dass man nach Fehlern suchen sollte.

Die realen Konsequenzen sind bereits sichtbar. Im Februar 2024 wurde Air Canada verurteilt, einem Kunden Schadenersatz zu zahlen, nachdem ein Support-Chatbot — kein Large Language Model, aber dennoch ein KI-System — eine Trauerfallrabatt-Richtlinie halluziniert hatte, die es gar nicht gab. Der Chatbot teilte dem Kunden selbstbewusst mit, er könne rückwirkend innerhalb von 90 Tagen nach Kauf einen Rabatt beantragen. Die tatsächliche Richtlinie ließ nichts dergleichen zu. Aber das System formulierte es mit einer Autorität, auf die sich der Kunde bei seiner finanziellen Entscheidung verließ. Die zugrundeliegende Technologie unterschied sich von heutigen LLMs, aber die Dynamik war identisch: selbstbewusster KI-Output, unkritische menschliche Akzeptanz.

Im operativen Kontext sind die Fehlermodi subtiler, aber nicht weniger schädlich. Stellen Sie sich einen Vertrag vor, in dem die Zahlungsbedingungen auf Seite 8 und Seite 14 erwähnt werden — und die beiden Seiten unterschiedliche Angaben machen. Ein menschlicher Prüfer würde die Diskrepanz möglicherweise bemerken. Eine KI, die die Zahlungsbedingungen extrahieren soll, wählt eine aus und macht weiter. Sie erwähnt den Konflikt nicht. Sie markiert die Mehrdeutigkeit nicht. Sie füllt die Zelle in Ihrer Tabelle mit „30 Tage netto“ und gibt Ihnen keinen Hinweis darauf, dass Seite 14 „45 Tage netto“ sagt.

Meetingnotizen sind ein weiteres Minenfeld. „Lass uns nächste Woche darauf zurückkommen“ wird in der KI-Zusammenfassung zu einem konkreten Datum mit einem benannten Verantwortlichen — Details, die niemand tatsächlich gesagt hat, die das Modell aber erfunden hat, um einen sauberen, handlungsorientierten Output zu liefern.

Das Muster ist bei Rechnungen, Versicherungsdokumenten, Mietverträgen, Lieferantenbewertungen und CRM-Dateneingabe dasselbe: Überall dort, wo KI eingesetzt wird, um strukturierte Informationen aus unordentlichen Quellen zu extrahieren, arbeitet der Instinkt des Modells, jedes Feld zu füllen, direkt gegen das Bedürfnis des Nutzers zu wissen, welche Felder unsicher sind.


Drei Prompt-Regeln, die den Anreiz verändern

Diese drei Probleme — Trainingsanreize, die Raten belohnen; interne Mechanismen, die Unsicherheitserkennung überschreiben können; und menschliche Psychologie, die selbstbewussten Output ungeprüft akzeptiert — stammen aus verschiedenen Forschungssträngen. Aber sie konvergieren auf dieselbe praktische Schlussfolgerung: Standardmäßig wird KI raten statt Unwissen einzugestehen, und Menschen werden dem Rateergebnis vertrauen.

Sie können die Trainingspipeline nicht reparieren. Sie können die Benchmarks nicht umgestalten. Aber Sie können die lokale Anreizstruktur innerhalb der Konversation verändern. Die folgenden drei Regeln — adaptiert aus einem praktischen Framework von D-Squared — tun genau das. Sie funktionieren, weil sie die Standarddynamik explizit umkehren: Statt Vollständigkeit zu belohnen, belohnen sie Ehrlichkeit über Unsicherheit. Die Wirksamkeit dieser Techniken kann zwischen Modellfamilien variieren — getestet wurden sie primär mit ChatGPT und Claude; andere Modelle könnten unterschiedlich reagieren.

Regel 1: Leerlassen erzwingen + begründen

Die wirkungsvollste Änderung ist, das Modell explizit anzuweisen, Felder leer zu lassen, wenn die Daten mehrdeutig, fehlend oder unklar sind — und zu erklären, warum.

Ohne diese Regel wird jedes Feld gefüllt. Mit dieser Regel produziert das Modell Output wie diesen:

Feld Wert Begründung
Zahlungsbedingungen — LEER Seite 8 und Seite 14 nennen unterschiedliche Bedingungen — 30 Tage netto vs. 45 Tage netto
Verlängerungsdatum 15. Jan. 2027
Haftungsobergrenze — LEER Verweist auf „Anlage B“ — nicht im Dokument enthalten

Die leeren Felder sind der eigentliche Mehrwert. Sie zeigen genau, wo Ihre Aufmerksamkeit gebraucht wird. Sie sind das Eingeständnis des Modells: „Ich bin nicht sicher“ — etwas, das es ohne explizite Anweisung nie tun würde.

Der Prompt:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle. Regeln: Extrahiere nur Werte, die im Dokument explizit genannt werden. Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER. Füge eine Spalte „Begründung“ hinzu. Schreibe neben jedes leere Feld eine einzeilige Erklärung, warum du es leer gelassen hast. Stütze jeden Wert auf das, was das Dokument tatsächlich sagt. Zitiere oder referenziere den konkreten Abschnitt, aus dem du ihn entnommen hast.

Eine Möglichkeit zu verstehen, warum das funktioniert, bietet Anthropics Interpretierbarkeitsforschung. Das Modell hat interne Mechanismen zur Erkennung von Unsicherheit — das oben beschriebene Standard-Verweigerungsverhalten. Aber diese Mechanismen werden vom Druck überschrieben, vollständigen, kohärenten Output zu produzieren. Die „Leerlassen erzwingen“-Anweisung gibt dem Unsicherheitspfad möglicherweise die Erlaubnis zu aktivieren, anstatt vom Vervollständigungsinstinkt unterdrückt zu werden. Ob das tatsächlich der interne Mechanismus ist, wissen wir nicht mit Sicherheit — aber das praktische Ergebnis ist konsistent und zuverlässig.

Regel 2: Raten bestrafen

Standardmäßig wiegen aus Sicht des Modells eine falsche Antwort und ein leeres Feld gleich schwer — keines wird gelobt, keines löst Korrektur aus. Das Modell hat keinen Grund, eines dem anderen vorzuziehen, also rät es standardmäßig (was zumindest eine Chance hat, richtig zu sein).

Regel 2 ändert dieses Kalkül mit einem einzigen Satz:

Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

Dies spiegelt die Bewertungsreform wider, die OpenAIs September-2025-Paper auf Benchmark-Ebene fordert. Die Forscher schlagen vor, dass Bewertungssysteme Punkte für korrekte Antworten vergeben, falsche Antworten stärker bestrafen als Enthaltungen und Teilpunkte für angemessene Ausdrücke von Unsicherheit geben sollen. Sie merken an, dass einige standardisierte menschliche Prüfungen diesen Ansatz seit Jahrzehnten verwenden — falsches Raten wird stärker bestraft als ausgelassene Fragen —, genau um blindes Raten zu unterbinden.

Sie können den Benchmark nicht ändern. Aber Sie können dieselbe Anreizstruktur in Ihren Prompt einbauen. Der 3×-Multiplikator ist willkürlich — wählen Sie eine beliebige Zahl, die dem Modell klarmacht, dass Schweigen besser ist als Erfindung. Die entscheidende Erkenntnis: Sie müssen es explizit sagen. Das Modell wird diese Präferenz nicht von selbst ableiten.

Regel 3: Die Quelle zeigen

Selbst Modelle, denen gesagt wird, „nur zu extrahieren“, driften zur Inferenz ab. Sie berechnen ein Verlängerungsdatum aus Startdatum und Laufzeit. Sie schätzen eine Summe aus Einzelposten. Sie leiten eine Kontaktperson aus einer E-Mail-Signatur ab. Das ist nicht unbedingt falsch — aber es ist keine Extraktion, und der Nutzer muss den Unterschied kennen.

Regel 3 verlangt vom Modell, jeden Wert als EXTRAHIERT (direkt im Dokument genannt) oder ABGELEITET (hergeleitet, berechnet oder interpretiert) zu kennzeichnen, mit einer Erklärung für jeden abgeleiteten Wert.

Der Prompt:

Füge für jedes Feld eine Spalte „Quelle“ hinzu. Kennzeichne jeden Wert als: EXTRAHIERT — direkt im Dokument genannt, exakte Übereinstimmung. ABGELEITET — aus dem Kontext hergeleitet, berechnet oder interpretiert. Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu, worauf du dich gestützt hast.

Der Output sieht so aus:

Feld Wert Quelle Beleg
Startdatum 15. Jan. 2025 EXTRAHIERT Abschnitt 2.1, Absatz 1
Laufzeit 24 Monate EXTRAHIERT Abschnitt 2.1, Absatz 2
Verlängerungsdatum 15. Jan. 2027 ABGELEITET 24 Monate ab Startdatum berechnet. Prüfe Abschnitt 8 — Klausel zur vorzeitigen Kündigung könnte dies ändern.

Die EXTRAHIERT/ABGELEITET-Unterscheidung ist eine praktische Umsetzung dessen, was Halluzinationsforschende als „Provenance Tracking“ bezeichnen — jede Behauptung an ihre Quelle zurückbinden. Das Modell ist durchaus in der Lage, diese Unterscheidung zu treffen; es macht sich nur nicht die Mühe, wenn man nicht danach fragt.


Der kombinierte Prompt

Alle drei Regeln wirken zusammen. Hier die vollständige Version:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle.

Regeln:

– Extrahiere nur Werte, die im Dokument explizit genannt werden.

– Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER.

– Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

– Füge für jedes Feld mit einem Wert eine Spalte „Quelle“ hinzu: EXTRAHIERT = direkt genannt, exakte Übereinstimmung. ABGELEITET = hergeleitet, berechnet oder interpretiert.

– Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu.

– Füge für jedes LEER-Feld eine Zeile in eine separate „Hinweise“-Tabelle ein, die erklärt, warum der Wert nicht extrahiert werden konnte.

Die Workflow-Änderung, die das ermöglicht, ist erheblich. Statt jeden extrahierten Wert zu überprüfen (was niemand tatsächlich tut), prüfen Sie nur die leeren und die abgeleiteten Felder. Alles, was als EXTRAHIERT mit einer Abschnittsreferenz markiert ist, kann mit höherem Vertrauen behandelt werden. Ihre Aufmerksamkeit geht dahin, wo sie gebraucht wird.


Das größere Bild

Diese drei Regeln sind eine Übergangslösung. Sie funktionieren — manchmal erstaunlich gut —, aber sie arbeiten gegen die Richtung, in die Modelle trainiert werden. Die tiefere Lösung erfordert Veränderungen auf Infrastrukturebene.

OpenAIs Halluzinations-Paper fordert eine Reform der Benchmarks: Bewertungssysteme, die kalibrierte Unsicherheit belohnen statt selbstbewusstes Raten. Anthropics Interpretierbarkeitsforschung weist auf architektonische Erkenntnisse hin — die internen Schaltkreise gut genug zu verstehen, um den „Ich weiß es nicht“-Pfad zu stärken, statt sich auf Prompt-Patches zu verlassen.

Die vielleicht strukturell vielversprechendste Richtung ist OpenAIs „Confessions„-Forschung (2025). Statt sich darauf zu verlassen, dass Nutzer Ehrlichkeit per Prompt erzwingen, trennt der Confessions-Ansatz das Ehrlichkeitsziel vom Leistungsziel bereits im Training. Nachdem das Modell eine Hauptantwort produziert hat — optimiert auf all die üblichen Faktoren wie Korrektheit, Stil und Hilfsbereitschaft — erstellt es einen separaten „Beichtbericht“. Dieser Bericht wird ausschließlich auf Ehrlichkeit bewertet: Hat das Modell seine Unsicherheiten markiert? Hat es zugegeben, wo es Abkürzungen genommen hat? Entscheidend: Nichts im Beichtbericht wird gegen den Score der Hauptantwort verwendet, sodass das Modell keinen Anreiz hat, seine Zweifel zu verbergen. Wenn dieser Ansatz skaliert, könnte er das Ehrlichkeitsproblem von etwas, das Nutzer per Prompt-Engineering umgehen müssen, zu etwas machen, das das Modell nativ handhabt.

Das sind vielversprechende Richtungen, aber keine davon steht Ihnen heute zur Verfügung. Was Ihnen zur Verfügung steht, ist die Möglichkeit, die lokale Anreizstruktur in Ihren Prompts zu verändern. Leere erzwingen. Raten bestrafen. Quellenangaben verlangen. Diese drei Regeln machen KI nicht von Natur aus ehrlich, aber sie schaffen eine Umgebung, in der Ehrlichkeit der Weg des geringsten Widerstands ist — und das erweist sich als überraschend wirksam.

Die Modelle sind schlau genug zu wissen, wann sie raten. Sie brauchen nur die Erlaubnis, es zu sagen.


Quellen und weiterführende Lektüre