Schlagwort: Halucination

3 Prompt AI Series #4: Kalibrierung, Governance und Trade-offs

Das Drei-Regeln-Framework umsetzen: Kalibrierung, Governance und Trade-offs

Der vorherige Beitrag dieser Serie hat ein allgemeines Framework für KI-gestützte Szenarioplanung vorgestellt: Leerlassen erzwingen, Raten bestrafen, Quelle zeigen. Das Framework produziert Output, in dem jede Behauptung als VERIFIZIERT, ANGENOMMEN oder PROJIZIERT getaggt ist und Lücken explizit markiert statt stillschweigend gefüllt werden.

Das war das Was. Dieser Beitrag handelt vom Wie — drei praktische Herausforderungen, denen jeder begegnet, der das Framework umsetzt:

  1. Kalibrierung: Sie haben etwas als ANGENOMMEN getaggt. Wie prüfen Sie, ob die Annahme vernünftig ist?
  2. Governance: Wie setzen Organisationen Tagging in tatsächlichen Workflows durch — nicht nur im Prompt einer einzelnen Person?
  3. Trade-offs: Erzeugt das ganze Tagging nicht kognitive Überlastung? Wie lesen Nicht-Experten ein Dokument voller Provenance-Labels?

1. Annahmen kalibrieren: Von „getaggt“ zu „geprüft“

Eine Annahme zu taggen ist notwendig, aber nicht hinreichend. (ANGENOMMEN: Markt wächst 15 % jährlich) ist besser als ein unmarkiertes 15 %, das in die Projektion eingebaut ist — aber es sagt Ihnen nicht, ob 15 % vertretbar sind. Das Framework legt Annahmen offen; Kalibrierung prüft sie.

Vier Kalibrierungsmethoden funktionieren gut mit dem getaggten Output:

Reference Class Forecasting: Die Außenperspektive

Daniel Kahnemans und Amos Tverskys Unterscheidung zwischen der „Innenperspektive“ (Planung basierend auf den Spezifika dieses Projekts) und der „Außenperspektive“ (was bei vergleichbaren Projekten historisch passiert ist) ist das nützlichste Einzelkonzept zur Kalibrierung von Annahmen. Die Planungsfehler-Tendenz — systematisches Unterschätzen von Kosten und Zeitplänen — ist so gut dokumentiert, dass die American Planning Association Reference Class Forecasting 2005 offiziell empfohlen hat.

In der Praxis bedeutet das: Für jeden ANGENOMMEN-Tag fragen Sie das Modell (oder sich selbst), 3–5 vergleichbare Situationen und deren tatsächliche Ergebnisse zu identifizieren. Wenn Sie 15 % Wachstum annehmen, welches Wachstum haben ähnliche Produkte in ähnlichen Märkten tatsächlich erzielt? Wenn Sie einen 6-monatigen Genehmigungszeitraum annehmen, wie lange haben vergleichbare Genehmigungen tatsächlich gedauert?

Sie können das sogar in den Prompt einbauen:

Füge für jeden ANGENOMMEN-Tag eine „Kalibrierung“ hinzu: Identifiziere 2–3 vergleichbare historische Fälle und deren tatsächliche Ergebnisse. Falls keine vergleichbaren Daten existieren, vermerke [KEINE REFERENZKLASSE].

Sensitivitätstest: Was bricht, wenn das falsch ist?

Nicht alle Annahmen sind gleich wichtig. RANDs Assumption-Based Planning nennt das „Kritikalität“ — eine Annahme ist kritisch, wenn ihr Scheitern grundlegende Änderungen am Plan erfordern würde. In der Praxis heißt das testen: Was passiert mit der Schlussfolgerung, wenn diese Annahme um 50 % danebenliegt? Wenn die Antwort „nicht viel“ ist, hat die Annahme niedrige Priorität. Wenn die Antwort „der gesamte Business Case bricht zusammen“ ist, ist das Ihr Validierungsziel mit höchster Priorität.

Das getaggte Format ermöglicht das direkt. Sie können das Modell fragen:

Nimm die drei ANGENOMMEN-Positionen mit dem höchsten Einfluss auf die Endprojektion. Berechne für jede die Projektion neu mit der Annahme bei 50 % des angegebenen Werts und bei 150 %. Zeige mir, für welche Annahmen die Schlussfolgerung am empfindlichsten ist.

Pre-Mortem: Stell dir vor, es ist gescheitert

Gary Kleins Pre-Mortem-Technik kehrt die Frage um: Statt „Wird das funktionieren?“ zu fragen, startet man mit „Es ist gescheitert — warum?“ Das ist besonders wirksam für ANGENOMMEN-Tags, weil es Fehlermodi sichtbar macht, die Optimismus verbirgt:

Nimm an, dieses Szenario ist nach 12 Monaten gescheitert. Welche der ANGENOMMEN-Positionen waren am wahrscheinlichsten der Punkt des Scheiterns? Beschreibe für jede ein plausibles Narrativ, wie diese Annahme zusammengebrochen ist.

Zeitlicher Verfall: Wann verfällt die Annahme?

Annahmen haben ein Haltbarkeitsdatum. Eine Marktgrößenschätzung aus einem Gartner-Bericht von 2025 ist 2026 noch vertretbar. Eine Wettbewerbs-Landschafts-Annahme von 2024 könnte bereits falsch sein. Eine zeitliche Dimension zu ANGENOMMEN-Tags hinzuzufügen hilft:

Füge für jeden ANGENOMMEN-Tag eine Verfallsschätzung hinzu: Wie lange ist diese Annahme voraussichtlich gültig? Markiere alles, was älter als 12 Monate ist oder auf Daten vor 2025 basiert, als [VERALTETE ANNAHME].


2. Governance: Das Framework über eine einzelne Person hinaus verankern

Das Framework funktioniert gut, wenn eine Person es in einer Chat-Session nutzt. Die Governance-Frage ist: Wie übersteht es den Kontakt mit einer Organisation — mehrere Personen, mehrere KI-Tools, mehrere Dokumente, über Monate?

Das Problem: Tags gehen in der Übersetzung verloren

Was typischerweise passiert: Ein Analyst erstellt ein schön getaggtes Szenario. Er kopiert es in eine Folienpräsentation. Die Tags verschwinden. Ein Manager liest die Folien, sieht „Umsatz Jahr 1: 310K €“ ohne jeden Hinweis, dass die Zahl PROJIZIERT ist aus zwei nicht validierten ANGENOMMEN-Inputs. Das Geisterszenario lebt wieder.

Das ist ein Wissensmanagement-Problem, kein KI-Problem. Und es hat Wissensmanagement-Lösungen.

Stufe 1: Template-Pflicht

Der einfachste Governance-Mechanismus ist ein Template. Wenn Ihre Organisation KI für Szenarioplanung nutzt, sollte das Output-Template Provenance-Spalten fest eingebaut haben. Nicht optional, nicht „bei Bedarf hinzufügen“ — strukturell erforderlich. Ein Szenario-Dokument ohne Quellen-Tags sollte genauso behandelt werden wie ein Finanzbericht ohne Belege: unvollständig.

Konkret: Erstellen Sie ein Standardtabellenformat für alle KI-gestützten Szenario-Outputs:

Variable Wert Quelle Basis / Falls falsch Geprüft von Datum
(Alle KI-generierten Szenario-Outputs müssen dieses Format verwenden)

Die Spalten „Geprüft von“ und „Datum“ sind die Governance-Ergänzungen. Sie machen aus einer Prompt-Technik eine Prüfspur. Jemand muss jede ANGENOMMEN-Position abzeichnen, bevor sie in die Planung eingeht.

Stufe 2: Review-Workflow

Für Organisationen mit strukturierteren Prozessen integrieren Sie das Tagging in den Review-Zyklus:

Schritt 1 — Generierung: KI produziert getaggten Output mit dem Drei-Regeln-Prompt.
Schritt 2 — Annahmen-Review: Ein Fachexperte prüft alle ANGENOMMEN- und PROJIZIERT-Positionen. Jede bekommt eine von drei Dispositionen: bestätigt (wird zu VERIFIZIERT umklassifiziert), hinterfragt (zur Kalibrierung geschickt) oder mit Risiko akzeptiert (bleibt als ANGENOMMEN mit dokumentierter Begründung).
Schritt 3 — Lücken-Triage: Alle DATENLÜCKE- und ANNAHMELÜCKE-Positionen werden triagiert: auflösbar (jemandem zuweisen, die Daten zu finden), irreduzibel (die Unsicherheit ist inhärent — dokumentieren und drum herumplanen) oder zurückgestellt (für diese Entscheidungsphase nicht nötig).
Schritt 4 — Entscheidungspaket: Das finale Dokument trennt „was wir wissen“ (VERIFIZIERT), „was wir glauben“ (ANGENOMMEN, mit Kalibrierungsnotizen) und „was wir nicht wissen“ (verbleibende Lücken). Entscheidungsträger sehen alle drei.

Stufe 3: System-Prompt-Standardisierung

Wenn Ihre Organisation KI teamübergreifend nutzt, standardisieren Sie den System-Prompt. Verlassen Sie sich nicht darauf, dass einzelne Analysten sich daran erinnern, die drei Regeln anzuwenden. Verankern Sie das Framework in jedem KI-Zugangspunkt — ob Claude-Projekt, Custom GPT, API-Wrapper oder n8n-Workflow. Der Prompt wird Infrastruktur, nicht persönliche Praxis.

Die kulturelle Herausforderung

Das schwierigste Governance-Problem ist nicht technisch. Es ist, dass Unsicherheit zu taggen sich nach Schwäche anfühlt. Ein Szenario voller ANGENOMMEN- und DATENLÜCKE-Labels einem Vorstand zu präsentieren wirkt weniger überzeugend als saubere Zahlen. Die organisationale Antwort darauf muss explizit sein: Ein getaggtes Szenario ist kein unvollständiges Szenario — es ist ein ehrliches. Die sauberen Zahlen waren nie sauber; sie haben nur versteckt, wo die Vermutungen waren.

Genau das zeigt Bent Flyvbjergs jahrzehntelange Forschung zu Großprojekt-Fehlschlägen: Die Projekte, die am katastrophalsten das Budget sprengten, waren nicht die mit der meisten Unsicherheit — es waren die, bei denen die Unsicherheit versteckt war. Transparenz über Annahmen ist eine Risikoreduktionsstrategie, kein Eingeständnis von Schwäche.


3. Trade-offs: Wenn Tags zu Rauschen werden

Ein Dokument, in dem jeder Satz ein Provenance-Label trägt, ist anstrengend zu lesen. Das Framework erzeugt realen kognitiven Overhead, und so zu tun als wäre das nicht so, wäre unehrlich. Die Frage ist nicht, ob es Kosten gibt — die gibt es —, sondern wie man sie steuert.

Das Überlastungsproblem

Stellen Sie sich ein 20-Variablen-Szenario vor mit Quellen-Tags, Kalibrierungsnotizen und „Falls falsch“-Anmerkungen an jeder ANGENOMMEN-Position. Für den Analysten, der es erstellt hat, ist das wertvoll — er sieht genau, wohin er seine Aufmerksamkeit richten muss. Für die Führungskraft, die darauf basierend entscheiden muss, ist es eine Wand von Einschränkungen, die das Ergebnis verdeckt.

Beide Perspektiven sind berechtigt. Die Lösung ist nicht, sich für eine zu entscheiden — sondern beide mit verschiedenen Sichten auf dieselben zugrundeliegenden Daten zu bedienen.

Lösung: Geschichtete Darstellung

Das getaggte Szenario sollte in mindestens zwei Schichten existieren:

Schicht 1 — Entscheidungszusammenfassung: Eine Seite. Kernschlüsse, Kernzahlen, Kernrisiken. Keine Tags im laufenden Text. Stattdessen ein einzelner Abschnitt „Konfidenzprofil“ am Ende:

Dieses Szenario stützt sich auf 14 verifizierte Datenpunkte, 6 genannte Annahmen und 3 Projektionen. Zwei Datenlücken sind ungelöst (marktspezifischer CAC, regulatorischer Zeitplan). Die Annahme mit dem höchsten Einfluss auf nachgelagerte Ergebnisse ist [X] — bei 50 % Abweichung verschiebt sich der projizierte Umsatz von 310K € auf 180K €.

Das ist die Führungskräfte-Sicht: Wie viel davon ist solide, wie viel ist unsicher, und was konkret könnte es zum Kippen bringen.

Schicht 2 — Vollständige getaggte Analyse: Der komplette Output mit allen Provenance-Tags, Kalibrierungsnotizen, Lücken-Labels und Sensitivitätsanalyse. Das ist das Arbeitsdokument. Der Analyst nutzt es, der Reviewer zeichnet es ab, und es wird archiviert. Es ist die Prüfspur.

Die Beziehung zwischen den Schichten ist wie die zwischen einem Jahresabschluss und seinen Fußnoten. Der Abschluss zeigt die Zahlen; die Fußnoten zeigen, worauf die Zahlen ruhen. Beides existiert. Verschiedene Leser nutzen verschiedene Schichten.

Wie Nicht-Experten Tags lesen

Für Teams, in denen nicht jeder das Tagging-System beherrscht, vereinfachen Sie die visuelle Sprache. Drei Farben funktionieren besser als drei Akronyme:

  • VERIFIZIERT → als normaler Text dargestellt (keine besondere Markierung nötig — es ist die Baseline)
  • ANGENOMMEN → hervorgehoben oder mit einem visuellen Signal markiert (z. B. kursiv, farbige Seitenleiste oder ein einfaches ⚠-Symbol)
  • DATENLÜCKE → als explizite Leerstelle mit kurzem Hinweis

Die Kernbotschaft, die Nicht-Experten verinnerlichen müssen, ist einfach: Unmarkierter Text ist fundiert; markierter Text ist unsicher; Leerstellen sind ehrlich. Das ist ein Zehn-Sekunden-Briefing. Wer eine Wettervorhersage lesen kann, die „aktuelle Temperatur“ von „Morgenprognose“ unterscheidet, kann ein getaggtes Szenario lesen.

Wann weniger Tags reichen

Nicht jeder Anwendungsfall braucht volle Provenance. Der richtige Tagging-Grad hängt von den Einsätzen ab:

Einsatz Tagging-Grad Beispiel
Niedrig Nur Lücken taggen Internes Brainstorming, frühe Ideenfindung
Mittel Lücken + Annahmen taggen Projektvorschläge, Budget-Entwürfe, Team-Planung
Hoch Volles Tagging + Kalibrierung Vorstandspräsentationen, Investitionsentscheidungen, regulatorische Einreichungen

Bei einem lockeren Strategie-Brainstorming VERIFIZIERT/ANGENOMMEN/PROJIZIERT auf jede Zeile zu verlangen, würde den kreativen Fluss töten. Bei einer 2-Millionen-Euro-Investitionsentscheidung für den Vorstand ist alles unter vollem Tagging unverantwortlich. Passen Sie die Intensität des Frameworks an die Konsequenzen der Entscheidung an.


Das Framework-Reifegradmodell

Zusammengenommen können Organisationen, die das Drei-Regeln-Framework einführen, die Umsetzung in drei Stufen denken:

Stufe 1 — Individuelle Praxis: Eine Person nutzt den Drei-Regeln-Prompt in ihren eigenen KI-Gesprächen. Getaggter Output bleibt in ihrem Workspace. Nutzen: persönliche Qualitätskontrolle. Kosten: nahezu null.

Stufe 2 — Team-Standard: Der Prompt wird in gemeinsame KI-Workspaces eingebettet (Claude-Projekte, Custom GPTs). Templates erzwingen das Tabellenformat. Annahmen bekommen informelles Peer-Review. Nutzen: gleichbleibende Qualität im Team. Kosten: Template-Erstellung, kurzes Training.

Stufe 3 — Organisationale Governance: Das Framework wird in Planungsprozesse integriert. Annahmen-Review ist ein formaler Workflow-Schritt. Kalibrierung (Referenzklasse, Sensitivität, Pre-Mortem) ist Standardpraxis. Entscheidungspakete trennen Konfidenzschichten. Nutzen: systematische Risikoreduktion. Kosten: Prozessänderung, kultureller Wandel.

Die meisten Teams sollten bei Stufe 1 beginnen und sofort Ergebnisse sehen. Ob man zu Stufe 2 oder 3 fortschreitet, hängt davon ab, wie viel auf dem Spiel steht, wenn KI-generierte Szenarien reale Entscheidungen informieren. Je höher die Einsätze, desto mehr zahlt sich die Governance-Investition aus.


Limitierungen und bekannte Lücken

Das Drei-Regeln-Framework ist ein Praktiker-Muster, keine peer-reviewte Methode. Es verdient dieselbe kritische Prüfung, die es Nutzer auf KI-Output anwenden lässt. Hier sind die Dinge, die es nicht löst — und die Wege, auf denen es missbraucht werden kann.

1. Nicht empirisch validiert

Es gibt keine kontrollierten Experimente, keine Vorher/Nachher-Fehlerratenmessungen und keine Nutzerstudien hinter diesem Framework. Forschung zeigt, dass Provenance-Tagging und strukturiertes Prompting Halluzinationen reduzieren können — manchmal erheblich —, aber das wurde für spezifische Tagging-Schemata unter kontrollierten Bedingungen nachgewiesen, nicht für das exakte VERIFIZIERT/ANGENOMMEN/PROJIZIERT-Muster, das hier vorgeschlagen wird. Behandeln Sie das Framework als eine Engineering-Heuristik, die in vielen Fällen wahrscheinlich hilft, nicht als etwas, dessen Wirksamkeit Sie ohne eigene Messung voraussetzen können. Wenn Sie es einführen, verfolgen Sie, ob es Ihre Outputs tatsächlich verbessert.

2. Der Prompt ist ein Hebel, nicht der einzige

Das Framework stützt sich stark auf Prompt-Design als primären Mechanismus zur Steuerung des Modellverhaltens. In der Praxis können Prompts Halluzinationen reduzieren, aber Modelle verletzen Anweisungen dennoch unter Druck — besonders wenn Optimierung, Reward-Modelle oder Fine-Tuning auf Sprachfluss und Vollständigkeit drängen. Für Produktionssysteme sollten Prompt-Regeln durch architektonische Kontrollen ergänzt werden: Retrieval-Augmented Generation (RAG) zur Verankerung von Outputs in tatsächlichen Daten, regelbasierte Filter zum Abfangen unbelegter Aussagen, Enthaltungsmechanismen, die die Generierung verweigern, wenn die Konfidenz niedrig ist, und menschliche Review-Workflows. Der Prompt ist der nutzer-zugängliche Hebel. Er ist nicht der einzige, und in Hochrisiko-Deployments ist es fragil, sich allein darauf zu verlassen.

3. VERIFIZIERT bedeutet „belegt“, nicht „unfehlbar“

Die Tag-Hierarchie des Frameworks impliziert einen Konfidenz-Gradienten: VERIFIZIERT = solide, ANGENOMMEN = fragil, PROJIZIERT = abgeleitet. Aber „verifizierte“ Daten können selbst erhebliche Probleme enthalten. Historische Zahlen können Messfehler widerspiegeln. Marktdaten können Anbieter-Annahmen oder Stichprobenverzerrungen kodieren. Finanz-Ist-Werte können nicht-stationär sein — eine Q4-2024-Umsatzzahl kann für Q4-2026-Projektionen in einem Post-Schock-Markt irreführend sein. Das Framework verfolgt Provenance (woher kommt diese Zahl?), nicht Qualität (ist diese Zahl noch ein zuverlässiger Leitfaden?). Nutzer sollten der Versuchung widerstehen, VERIFIZIERT als „gesichert“ zu behandeln. Datenfundamentalismus — die Annahme, dass belegte Daten korrekte Daten sind — ist ein anderer Fehlermodus als Halluzination, kann aber gleichermaßen schlechte Entscheidungen antreiben.

4. Tags legen Inputs offen, nicht strukturelle Validität

Ein Szenario kann perfekt getaggt sein — jede Zahl belegt, jede Annahme markiert, jede Lücke gekennzeichnet — und dennoch fundamental irreführend sein, weil das zugrundeliegende Kausalmodell falsch ist. Kundenabwanderung als preisunabhängig behandeln. Rückkopplungsschleifen zwischen Marketingausgaben und Markenwahrnehmung ignorieren. Lineare Skalierung annehmen, wo die realen Dynamiken nichtlinear sind. Das Framework fängt faktische Halluzinationen (falsche Inputs) ab, aber nicht strukturelle Fehler (falsches Modell davon, wie die Inputs zusammenhängen). Die Kalibrierungsmethoden — Sensitivitätstest, Pre-Mortem — helfen teilweise, testen Annahmen aber isoliert, nicht die Beziehungen zwischen ihnen. ABP- und Szenarioplanungs-Literatur betonen strukturelles Denken und die Exploration alternativer Logiken. Dieses Framework fokussiert auf Tagging und Lückenmarkierung, nicht auf die Qualität des mentalen Modells. Ein gut getaggtes schlechtes Modell ist immer noch ein schlechtes Modell.

5. Labels legen nicht offen, wessen Annahmen kodiert werden

Die Kategorien VERIFIZIERT/ANGENOMMEN/PROJIZIERT können einen Anschein von Objektivität vermitteln, der Machtdynamiken verbirgt. Management kann optimistische Wachstumsziele als ANGENOMMEN kodieren, ohne den politischen Druck hinter der Zahl offenzulegen. Die Marktgrößenschätzung eines Anbieters, als VERIFIZIERT getaggt, kann dessen kommerzielle Interessen einbetten. Die PROJIZIERT-Berechnung eines Analysten kann ein Modell verwenden, das institutionelle Voreingenommenheit zugunsten bestimmter Ergebnisse widerspiegelt. Das Framework verlangt weder vom Modell noch vom Menschen offenzulegen, wessen Annahmen kodiert werden oder wie sie entstanden sind. Die Frage ist nicht nur „ist das belegt oder angenommen?“, sondern „wessen Interessen haben diese Annahme geformt?“ Das Framework beantwortet diese Frage nicht — und zu behaupten, es tue es, wäre eine Form derselben falschen Zuversicht, die es verhindern soll.

6. Zu viele Lücken können Entscheidungen lähmen

Das Framework bestraft Raten explizit und ermutigt das Modell, bei jeder Gelegenheit [DATENLÜCKE] und [ANNAHMELÜCKE] zu markieren. In Hochunsicherheits-Domänen — was die meiste strategische Planung betrifft — kann das zu Outputs führen, die von Lücken und Vorbehalten dominiert werden. ABP-Literatur betont, dass manche Annahmen „für Planungszwecke“ gemacht werden müssen, oder Planung kann nicht fortschreiten. Die Stakes-basierte Skalierungstabelle weiter oben adressiert dies teilweise, aber die zugrundeliegende Spannung bleibt: Das Framework fördert eine Norm, in der „stille Erfindung schlimmer ist als markierte Unsicherheit“, ohne explizit zu diskutieren, wann zu viel Unsicherheitssignalisierung die Entscheidungsfindung untergräbt. Passen Sie die Intensität des Frameworks nicht nur an die Entscheidungseinsätze an, sondern auch an die Risikobereitschaft und Entscheidungszeitpläne der Organisation.

7. Domänenspezifische Anpassung erforderlich

Die Serie behauptet, das Framework sei domänenübergreifend portabel — Dokumentextraktion, Worldbuilding, Szenarioplanung, Cybersecurity, wissenschaftliches Arbeiten. Aber diese Domänen haben sehr unterschiedliche Einsätze, epistemische Strukturen und regulatorische Umgebungen. In der Medizin ist etwas als ANGENOMMEN zu taggen bei Weitem nicht ausreichend, um es sicher zu machen — existierende Richtlinien erfordern RAG, externe Verifikation und menschliche Aufsicht. In der juristischen Arbeit kann ein individuelles Label-Schema mit etablierten Zitationsstandards kollidieren oder von Gerichten fehlinterpretiert werden. In regulierten Branchen können Compliance-Frameworks eigene Provenance-Anforderungen haben. Das allgemeine Muster bietet eine Ausgangsstruktur; domänenspezifische Anpassung und Validierung sind erforderlich, bevor man sich in regulierten oder Hochrisiko-Umgebungen darauf verlässt.

Diese Limitierungen entkräften das Framework nicht — sie begrenzen es. Die drei Regeln sind eine erhebliche Verbesserung gegenüber dem Default (keine Provenance, keine Lückenmarkierung, keine Bestrafung für Raten), aber sie sind keine vollständige Lösung. Sie sind der Beginn einer Praxis, nicht ihr Ende.


Quellen und weiterführende Lektüre

Drei Prompt-Regeln, die KI davon abhalten zu raten — und die Wissenschaft dahinter

Jede neue Modellgeneration wird mit großem Tamtam angekündigt: bessere Benchmarks, höhere Genauigkeitswerte, beeindruckendere Demos. GPT-5 löst komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verblüffender Leichtigkeit. Die Intelligenzkurve steigt und steigt.

Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft — die Ehrlichkeitskurve. Und die hat sich kaum bewegt.

Das ist keine vage philosophische Klage. Es ist ein strukturelles Problem, das in Training, Evaluierung und Einsatz dieser Modelle fest eingebaut ist. Und es trifft genau die Arbeit am härtesten, bei der Menschen zunehmend auf KI setzen: Daten aus Verträgen extrahieren, Rechnungen auswerten, Meetingnotizen zusammenfassen, CRM-Einträge aus unstrukturierten Quellen erstellen.

Dieser Beitrag erklärt, warum die Lücke zwischen Intelligenz und Ehrlichkeit existiert, was die aktuelle Forschung über ihre Ursachen sagt — und vor allem: drei Prompt-Regeln, die Sie heute anwenden können, um KI dazu zu bringen, ehrlich zuzugeben, was sie nicht weiß.


Die Lücke: Intelligenz vs. Ehrlichkeit

Wenn wir sagen, ein Modell sei „schlauer geworden“, meinen wir in der Regel, dass es bei Benchmarks besser abschneidet — Mathematik-Wettbewerbe, Programmieraufgaben, mehrstufige Denkaufgaben. Das sind reale Verbesserungen. Aber Benchmark-Ergebnisse messen die Fähigkeit eines Modells, korrekte Antworten zu geben. Sie messen nicht seine Bereitschaft, „Ich weiß es nicht“ zu sagen.

Tatsächlich bestraft die Anreizstruktur Ehrlichkeit sogar aktiv.

Im September 2025 veröffentlichte OpenAI ein Forschungspapier, das dieses Problem präzise beschreibt. Das Team — darunter Forscher vom Georgia Institute of Technology — untersuchte große KI-Benchmarks und stellte fest, dass die überwiegende Mehrheit binäre Bewertung verwendet: Entweder die Antwort ist korrekt und bekommt einen Punkt, oder sie ist falsch und bekommt null. Entscheidend: Auch die Enthaltung — also „Ich weiß es nicht“ zu sagen — bekommt null. Die mathematische Konsequenz ist eindeutig: Raten erzielt immer einen höheren erwarteten Score als Enthaltung. Ein Modell, das bei jeder unsicheren Frage blufft, wird höher eingestuft als eines, das ehrlich ablehnt.

OpenAIs eigener Blogpost formulierte es anschaulich: Die Situation gleicht einem Multiple-Choice-Test, bei dem eine leere Antwort garantiert null Punkte gibt, aber Raten zumindest eine Chance bietet. Unter diesen Regeln ist die rationale Strategie, immer zu raten — auch wenn man keine Ahnung hat. Und genau das lernen die Modelle.

Das Paper demonstrierte dies mit einem eindrücklichen Beispiel: Nach dem Titel der Doktorarbeit eines seiner eigenen Co-Autoren gefragt, produzierte ein weit verbreitetes Modell bei drei Versuchen drei verschiedene Titel mit voller Überzeugung. Alle drei waren falsch. Dasselbe passierte mit seinem Geburtstag — drei Daten, alle falsch, alle mit unerschütterlicher Zuversicht vorgetragen.

Das ist kein Bug, der gepatcht werden kann. Es ist das natürliche Ergebnis der Optimierung auf reine Genauigkeitsmetriken. Wie die OpenAI-Forscher argumentieren, müssen die gängigen Benchmarks und Leaderboards so umgestaltet werden, dass sie selbstsichere Fehler stärker bestrafen als Unsicherheit. Bis dahin wird jedes Modell, das im Leaderboard aufsteigt, dies teilweise dadurch schaffen, dass es besser blufft.


Warum Modelle konfabulieren: Erkenntnisse aus der Interpretierbarkeitsforschung

Das OpenAI-Paper erklärt das Anreizproblem. Aber was passiert mechanisch im Inneren des Modells, wenn es etwas erfindet?

Anthropics Interpretierbarkeitsforschung — im März 2025 unter dem Titel „Tracing the Thoughts of a Large Language Model“ veröffentlicht — liefert einige der detailliertesten Antworten, die wir haben. Mit etwas, das sie als „Mikroskop“ für KI beschreiben, verfolgten Anthropics Forscher die internen Schaltkreise, die aktiviert werden, wenn Claude eine Frage verarbeitet. Dabei ist anzumerken, dass diese Erkenntnisse spezifisch für Claude 3.5 Haiku sind — andere Modellfamilien könnten Unsicherheit über andere interne Mechanismen handhaben — aber die Muster sind vermutlich allgemein genug, um instruktiv zu sein.

Eine ihrer aufschlussreichsten Entdeckungen betrifft etwas, das man als Default-Verweigerungs-Mechanismus bezeichnen könnte. Bei Claude ist die Verweigerung einer Antwort tatsächlich das Standardverhalten: Die Forscher fanden einen Schaltkreis, der standardmäßig aktiviert ist und das Modell veranlasst, mitzuteilen, dass es nicht genug Informationen hat. Aber wenn das Modell eine „bekannte Entität“ erkennt — etwa Michael Jordan den Basketballspieler — feuert ein konkurrierender Satz von Features und unterdrückt diesen Standard-Schaltkreis, sodass das Modell antworten kann.

Das Problem entsteht, wenn dieser Mechanismus fehlzündet. Wenn das Modell einen Namen erkennt, aber die relevanten Fakten nicht kennt, kann das „bekannte Entität“-Signal trotzdem den „Ich weiß es nicht“-Schaltkreis überschreiben. Das Ergebnis: eine selbstbewusste, detaillierte, komplett erfundene Antwort. In einem Experiment verwendeten die Forscher eine Person namens Michael Batkin — jemanden, der dem Modell unbekannt war und standardmäßig eine Verweigerung auslöste. Als sie aber künstlich die „bekannte Entität“-Features aktivierten oder die „Kann nicht antworten“-Features unterdrückten, halluzinierte Claude prompt — und konsistent —, dass Batkin berühmt sei fürs Schachspielen.

Noch beunruhigender: Anthropic fand Belege dafür, dass Claude, wenn es eine Antwort nicht leicht berechnen kann (etwa den Kosinus einer großen Zahl), sich manchmal in etwas engagiert, was der Philosoph Harry Frankfurt als Bullshitting bezeichnen würde — eine Antwort produzieren, ohne dass intern irgendein Beleg für eine tatsächliche Berechnung vorliegt. Obwohl das Modell behauptete, gerechnet zu haben, zeigten die Interpretierbarkeits-Tools keine Spur einer Berechnung. Wenn man ihm einen Hinweis auf die erwartete Antwort gab, arbeitete Claude rückwärts und konstruierte plausibel aussehende Zwischenschritte, die zum vorgegebenen Ergebnis führen — ein Lehrbuchbeispiel für motiviertes Denken.

Diese Erkenntnisse sind wichtig, weil sie zeigen, dass das Ehrlichkeitsproblem nicht nur eine Frage der Trainingsanreize ist. Die Modelle haben interne Mechanismen, die Unsicherheit eigentlich erkennen sollen — aber diese Mechanismen können von anderen Kräften überschrieben werden, darunter der Drang nach grammatikalischer Kohärenz und der Pattern-Matching-Instinkt, Lücken zu füllen.


Automation Bias: Warum das wichtiger ist, als Sie denken

All das wäre rein akademisch, wenn Menschen KI-Output mit angemessener Skepsis behandeln würden. Tun sie aber nicht.

Automation Bias — die Tendenz, sich übermäßig auf automatisierte Empfehlungen zu verlassen — ist eines der am gründlichsten dokumentierten Phänomene in der Mensch-Computer-Interaktionsforschung. Ein systematisches Review aus dem Jahr 2025, veröffentlicht in AI & Society, analysierte 35 begutachtete Studien aus den Bereichen Gesundheitswesen, Finanzwirtschaft, nationale Sicherheit und öffentliche Verwaltung. Das Muster war domänenübergreifend konsistent: Wenn ein KI-System eine selbstbewusste Antwort liefert, akzeptieren Menschen sie. Sie prüfen weniger. Sie überstimmen ihr eigenes Urteil.

Eine randomisierte klinische Studie mit KI-geschulten Ärzten in Pakistan (veröffentlicht als Preprint im August 2025) machte die Dynamik besonders deutlich. Selbst Ärzte, die 20 Stunden KI-Kompetenztraining absolviert hatten — einschließlich Anleitung zur kritischen Bewertung von KI-Output — waren anfällig für Automation Bias, wenn sie fehlerhaften LLM-Empfehlungen ausgesetzt waren. Das Training half, beseitigte das Problem aber nicht. Selbstbewusst klingender KI-Output hat eine Gravitationskraft, der man schwer widerstehen kann, selbst wenn man weiß, dass man nach Fehlern suchen sollte.

Die realen Konsequenzen sind bereits sichtbar. Im Februar 2024 wurde Air Canada verurteilt, einem Kunden Schadenersatz zu zahlen, nachdem ein Support-Chatbot — kein Large Language Model, aber dennoch ein KI-System — eine Trauerfallrabatt-Richtlinie halluziniert hatte, die es gar nicht gab. Der Chatbot teilte dem Kunden selbstbewusst mit, er könne rückwirkend innerhalb von 90 Tagen nach Kauf einen Rabatt beantragen. Die tatsächliche Richtlinie ließ nichts dergleichen zu. Aber das System formulierte es mit einer Autorität, auf die sich der Kunde bei seiner finanziellen Entscheidung verließ. Die zugrundeliegende Technologie unterschied sich von heutigen LLMs, aber die Dynamik war identisch: selbstbewusster KI-Output, unkritische menschliche Akzeptanz.

Im operativen Kontext sind die Fehlermodi subtiler, aber nicht weniger schädlich. Stellen Sie sich einen Vertrag vor, in dem die Zahlungsbedingungen auf Seite 8 und Seite 14 erwähnt werden — und die beiden Seiten unterschiedliche Angaben machen. Ein menschlicher Prüfer würde die Diskrepanz möglicherweise bemerken. Eine KI, die die Zahlungsbedingungen extrahieren soll, wählt eine aus und macht weiter. Sie erwähnt den Konflikt nicht. Sie markiert die Mehrdeutigkeit nicht. Sie füllt die Zelle in Ihrer Tabelle mit „30 Tage netto“ und gibt Ihnen keinen Hinweis darauf, dass Seite 14 „45 Tage netto“ sagt.

Meetingnotizen sind ein weiteres Minenfeld. „Lass uns nächste Woche darauf zurückkommen“ wird in der KI-Zusammenfassung zu einem konkreten Datum mit einem benannten Verantwortlichen — Details, die niemand tatsächlich gesagt hat, die das Modell aber erfunden hat, um einen sauberen, handlungsorientierten Output zu liefern.

Das Muster ist bei Rechnungen, Versicherungsdokumenten, Mietverträgen, Lieferantenbewertungen und CRM-Dateneingabe dasselbe: Überall dort, wo KI eingesetzt wird, um strukturierte Informationen aus unordentlichen Quellen zu extrahieren, arbeitet der Instinkt des Modells, jedes Feld zu füllen, direkt gegen das Bedürfnis des Nutzers zu wissen, welche Felder unsicher sind.


Drei Prompt-Regeln, die den Anreiz verändern

Diese drei Probleme — Trainingsanreize, die Raten belohnen; interne Mechanismen, die Unsicherheitserkennung überschreiben können; und menschliche Psychologie, die selbstbewussten Output ungeprüft akzeptiert — stammen aus verschiedenen Forschungssträngen. Aber sie konvergieren auf dieselbe praktische Schlussfolgerung: Standardmäßig wird KI raten statt Unwissen einzugestehen, und Menschen werden dem Rateergebnis vertrauen.

Sie können die Trainingspipeline nicht reparieren. Sie können die Benchmarks nicht umgestalten. Aber Sie können die lokale Anreizstruktur innerhalb der Konversation verändern. Die folgenden drei Regeln — adaptiert aus einem praktischen Framework von D-Squared — tun genau das. Sie funktionieren, weil sie die Standarddynamik explizit umkehren: Statt Vollständigkeit zu belohnen, belohnen sie Ehrlichkeit über Unsicherheit. Die Wirksamkeit dieser Techniken kann zwischen Modellfamilien variieren — getestet wurden sie primär mit ChatGPT und Claude; andere Modelle könnten unterschiedlich reagieren.

Regel 1: Leerlassen erzwingen + begründen

Die wirkungsvollste Änderung ist, das Modell explizit anzuweisen, Felder leer zu lassen, wenn die Daten mehrdeutig, fehlend oder unklar sind — und zu erklären, warum.

Ohne diese Regel wird jedes Feld gefüllt. Mit dieser Regel produziert das Modell Output wie diesen:

Feld Wert Begründung
Zahlungsbedingungen — LEER Seite 8 und Seite 14 nennen unterschiedliche Bedingungen — 30 Tage netto vs. 45 Tage netto
Verlängerungsdatum 15. Jan. 2027
Haftungsobergrenze — LEER Verweist auf „Anlage B“ — nicht im Dokument enthalten

Die leeren Felder sind der eigentliche Mehrwert. Sie zeigen genau, wo Ihre Aufmerksamkeit gebraucht wird. Sie sind das Eingeständnis des Modells: „Ich bin nicht sicher“ — etwas, das es ohne explizite Anweisung nie tun würde.

Der Prompt:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle. Regeln: Extrahiere nur Werte, die im Dokument explizit genannt werden. Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER. Füge eine Spalte „Begründung“ hinzu. Schreibe neben jedes leere Feld eine einzeilige Erklärung, warum du es leer gelassen hast. Stütze jeden Wert auf das, was das Dokument tatsächlich sagt. Zitiere oder referenziere den konkreten Abschnitt, aus dem du ihn entnommen hast.

Eine Möglichkeit zu verstehen, warum das funktioniert, bietet Anthropics Interpretierbarkeitsforschung. Das Modell hat interne Mechanismen zur Erkennung von Unsicherheit — das oben beschriebene Standard-Verweigerungsverhalten. Aber diese Mechanismen werden vom Druck überschrieben, vollständigen, kohärenten Output zu produzieren. Die „Leerlassen erzwingen“-Anweisung gibt dem Unsicherheitspfad möglicherweise die Erlaubnis zu aktivieren, anstatt vom Vervollständigungsinstinkt unterdrückt zu werden. Ob das tatsächlich der interne Mechanismus ist, wissen wir nicht mit Sicherheit — aber das praktische Ergebnis ist konsistent und zuverlässig.

Regel 2: Raten bestrafen

Standardmäßig wiegen aus Sicht des Modells eine falsche Antwort und ein leeres Feld gleich schwer — keines wird gelobt, keines löst Korrektur aus. Das Modell hat keinen Grund, eines dem anderen vorzuziehen, also rät es standardmäßig (was zumindest eine Chance hat, richtig zu sein).

Regel 2 ändert dieses Kalkül mit einem einzigen Satz:

Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

Dies spiegelt die Bewertungsreform wider, die OpenAIs September-2025-Paper auf Benchmark-Ebene fordert. Die Forscher schlagen vor, dass Bewertungssysteme Punkte für korrekte Antworten vergeben, falsche Antworten stärker bestrafen als Enthaltungen und Teilpunkte für angemessene Ausdrücke von Unsicherheit geben sollen. Sie merken an, dass einige standardisierte menschliche Prüfungen diesen Ansatz seit Jahrzehnten verwenden — falsches Raten wird stärker bestraft als ausgelassene Fragen —, genau um blindes Raten zu unterbinden.

Sie können den Benchmark nicht ändern. Aber Sie können dieselbe Anreizstruktur in Ihren Prompt einbauen. Der 3×-Multiplikator ist willkürlich — wählen Sie eine beliebige Zahl, die dem Modell klarmacht, dass Schweigen besser ist als Erfindung. Die entscheidende Erkenntnis: Sie müssen es explizit sagen. Das Modell wird diese Präferenz nicht von selbst ableiten.

Regel 3: Die Quelle zeigen

Selbst Modelle, denen gesagt wird, „nur zu extrahieren“, driften zur Inferenz ab. Sie berechnen ein Verlängerungsdatum aus Startdatum und Laufzeit. Sie schätzen eine Summe aus Einzelposten. Sie leiten eine Kontaktperson aus einer E-Mail-Signatur ab. Das ist nicht unbedingt falsch — aber es ist keine Extraktion, und der Nutzer muss den Unterschied kennen.

Regel 3 verlangt vom Modell, jeden Wert als EXTRAHIERT (direkt im Dokument genannt) oder ABGELEITET (hergeleitet, berechnet oder interpretiert) zu kennzeichnen, mit einer Erklärung für jeden abgeleiteten Wert.

Der Prompt:

Füge für jedes Feld eine Spalte „Quelle“ hinzu. Kennzeichne jeden Wert als: EXTRAHIERT — direkt im Dokument genannt, exakte Übereinstimmung. ABGELEITET — aus dem Kontext hergeleitet, berechnet oder interpretiert. Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu, worauf du dich gestützt hast.

Der Output sieht so aus:

Feld Wert Quelle Beleg
Startdatum 15. Jan. 2025 EXTRAHIERT Abschnitt 2.1, Absatz 1
Laufzeit 24 Monate EXTRAHIERT Abschnitt 2.1, Absatz 2
Verlängerungsdatum 15. Jan. 2027 ABGELEITET 24 Monate ab Startdatum berechnet. Prüfe Abschnitt 8 — Klausel zur vorzeitigen Kündigung könnte dies ändern.

Die EXTRAHIERT/ABGELEITET-Unterscheidung ist eine praktische Umsetzung dessen, was Halluzinationsforschende als „Provenance Tracking“ bezeichnen — jede Behauptung an ihre Quelle zurückbinden. Das Modell ist durchaus in der Lage, diese Unterscheidung zu treffen; es macht sich nur nicht die Mühe, wenn man nicht danach fragt.


Der kombinierte Prompt

Alle drei Regeln wirken zusammen. Hier die vollständige Version:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle.

Regeln:

– Extrahiere nur Werte, die im Dokument explizit genannt werden.

– Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER.

– Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

– Füge für jedes Feld mit einem Wert eine Spalte „Quelle“ hinzu: EXTRAHIERT = direkt genannt, exakte Übereinstimmung. ABGELEITET = hergeleitet, berechnet oder interpretiert.

– Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu.

– Füge für jedes LEER-Feld eine Zeile in eine separate „Hinweise“-Tabelle ein, die erklärt, warum der Wert nicht extrahiert werden konnte.

Die Workflow-Änderung, die das ermöglicht, ist erheblich. Statt jeden extrahierten Wert zu überprüfen (was niemand tatsächlich tut), prüfen Sie nur die leeren und die abgeleiteten Felder. Alles, was als EXTRAHIERT mit einer Abschnittsreferenz markiert ist, kann mit höherem Vertrauen behandelt werden. Ihre Aufmerksamkeit geht dahin, wo sie gebraucht wird.


Das größere Bild

Diese drei Regeln sind eine Übergangslösung. Sie funktionieren — manchmal erstaunlich gut —, aber sie arbeiten gegen die Richtung, in die Modelle trainiert werden. Die tiefere Lösung erfordert Veränderungen auf Infrastrukturebene.

OpenAIs Halluzinations-Paper fordert eine Reform der Benchmarks: Bewertungssysteme, die kalibrierte Unsicherheit belohnen statt selbstbewusstes Raten. Anthropics Interpretierbarkeitsforschung weist auf architektonische Erkenntnisse hin — die internen Schaltkreise gut genug zu verstehen, um den „Ich weiß es nicht“-Pfad zu stärken, statt sich auf Prompt-Patches zu verlassen.

Die vielleicht strukturell vielversprechendste Richtung ist OpenAIs „Confessions„-Forschung (2025). Statt sich darauf zu verlassen, dass Nutzer Ehrlichkeit per Prompt erzwingen, trennt der Confessions-Ansatz das Ehrlichkeitsziel vom Leistungsziel bereits im Training. Nachdem das Modell eine Hauptantwort produziert hat — optimiert auf all die üblichen Faktoren wie Korrektheit, Stil und Hilfsbereitschaft — erstellt es einen separaten „Beichtbericht“. Dieser Bericht wird ausschließlich auf Ehrlichkeit bewertet: Hat das Modell seine Unsicherheiten markiert? Hat es zugegeben, wo es Abkürzungen genommen hat? Entscheidend: Nichts im Beichtbericht wird gegen den Score der Hauptantwort verwendet, sodass das Modell keinen Anreiz hat, seine Zweifel zu verbergen. Wenn dieser Ansatz skaliert, könnte er das Ehrlichkeitsproblem von etwas, das Nutzer per Prompt-Engineering umgehen müssen, zu etwas machen, das das Modell nativ handhabt.

Das sind vielversprechende Richtungen, aber keine davon steht Ihnen heute zur Verfügung. Was Ihnen zur Verfügung steht, ist die Möglichkeit, die lokale Anreizstruktur in Ihren Prompts zu verändern. Leere erzwingen. Raten bestrafen. Quellenangaben verlangen. Diese drei Regeln machen KI nicht von Natur aus ehrlich, aber sie schaffen eine Umgebung, in der Ehrlichkeit der Weg des geringsten Widerstands ist — und das erweist sich als überraschend wirksam.

Die Modelle sind schlau genug zu wissen, wann sie raten. Sie brauchen nur die Erlaubnis, es zu sagen.


Quellen und weiterführende Lektüre