Schlagwort: GPT

April 17, 2026

Das Drei-Regeln-Framework: Von der Dokumentextraktion zur Szenarioplanung

Dies ist der dritte Beitrag einer Serie über einen kleinen Satz von Prompt-Regeln mit überraschend großer Reichweite.

Im ersten Beitrag habe ich gezeigt, wie drei Regeln — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen — KI davon abhalten, beim Extrahieren von Daten aus Verträgen und Rechnungen stillschweigend zu raten. Im zweiten Beitrag habe ich sie für Alternate-History-Worldbuilding angepasst, wo dieselben Regeln Lore konsistent und die reale Geschichte korrekt halten.

Dieser Beitrag macht den letzten Schritt: Die drei Regeln werden zu einem Framework verallgemeinert, das für Szenarioplanung im Business funktioniert — strategische Planung, KPI-Entwicklung, Projekt-Risikobewertung, Finanzmodellierung, Markteintrittanalyse und jeden anderen Kontext, in dem Sie KI nutzen, um über die Zukunft nachzudenken.

Warum Szenarioplanung anfällig für dasselbe Problem ist

Szenarioplanung hat eine lange intellektuelle Geschichte. RAND entwickelte die Assumption-Based Planning (ABP) Methodik für die US-Armee in den 1990er-Jahren. Shell war Pionier der unternehmerischen Szenarioplanung in den 1980ern unter Peter Schwartz. Der Oxford Scenario Planning Approach, beschrieben in einem MIT-Sloan-Artikel vom Dezember 2025, integriert inzwischen generative KI in den Prozess selbst.

All diese Methoden teilen ein Kernprinzip: Annahmen explizit machen. RAND definiert eine Annahme als „eine Aussage über eine Eigenschaft der Zukunft, die den aktuellen Operationen oder Plänen einer Organisation zugrunde liegt“. Jeder Plan enthält sie. Die meisten sind unsichtbar. Die unsichtbaren sind die, die zu Scheitern führen.

Was passiert nun, wenn Sie Ihre Geschäftsdaten einer KI geben und sie bitten, ein Szenario zu bauen? Das Modell tut genau das, was es bei Verträgen und Fiktion tut: Es füllt Lücken. Umsatzwachstum im Q4? Das Modell wählt eine plausible Zahl. Wettbewerberreaktion auf Ihren Markteintritt? Das Modell erfindet eine. Zeitplan für die behördliche Genehmigung? Das Modell schätzt. Kundenabwanderung unter der neuen Preisstruktur? Das Modell generiert eine Kennzahl.

Jede einzelne davon ist eine Annahme. Keine davon wird als solche gekennzeichnet. Das Szenario liest sich wie eine kohärente Analyse, gestützt auf Daten — aber manche „Daten“ sind real, manche abgeleitet und manche wurden fabriziert, um das Narrativ zusammenzuhalten. Welche welche sind, ist nicht erkennbar.

Es ist dasselbe Problem in seiner dritten Inkarnation. Und es reagiert auf dieselben drei Regeln.

Das allgemeine Muster

Über drei Domänen hinweg wiederholt sich dieselbe Struktur:

Domäne	Kanon (Wahrheitsquelle)	Quellen-Tags	Lücken-Labels
Dokumentextraktion	Das Dokument	EXTRAHIERT / ABGELEITET	LEER
Worldbuilding	Reale Geschichte + Lore	HISTORIE / LORE-BELEGT / LORE-INFERIERT	HISTORISCHE LÜCKE / LORE-LÜCKE
Szenarioplanung	Verifizierte Daten + Etablierte Rahmenbedingungen	VERIFIZIERT / ANGENOMMEN / PROJIZIERT	DATENLÜCKE / ANNAHMELÜCKE

Die zugrundeliegende Logik ist immer dieselbe: Unterscheide, was bekannt ist, von dem, was erfunden wurde, und mache die Grenze sichtbar.

Für Business-Szenarien hat der „Kanon“ zwei Schichten — genau wie beim Worldbuilding:

Verifizierte Daten — Dinge, die Sie aus tatsächlichen Messungen kennen: Vorjahresumsatz, aktuelle Mitarbeiterzahl, unterzeichnete Verträge, gemessene KPIs, Marktdaten aus glaubwürdigen Quellen
Etablierte Rahmenbedingungen — Dinge, die entschieden sind, nicht spekuliert: Budgetgrenzen, regulatorische Vorgaben, vertragliche Fristen, vom Vorstand genehmigte Ziele

Alles andere — Marktwachstumsschätzungen, Wettbewerberverhalten, Kundenadoptionsraten, Technologie-Reifegrad-Zeitpläne — ist eine Annahme. Und Annahmen gibt es in zwei Varianten: solche, die Sie durchdacht haben und verteidigen können (auch wenn sie unsicher sind), und solche, die die KI einfach erfunden hat, weil das Szenario eine Zahl brauchte.

Die drei Regeln existieren, um diese Kategorien zu trennen.

Die drei Regeln für die Szenarioplanung

Regel 1: Leerlassen erzwingen → Unbekannte Variablen markieren

Wenn die KI auf eine Variable trifft, für die sie keine Daten hat, soll sie es sagen — nicht einen plausiblen Wert erfinden.

Die Lücken-Labels für Business-Szenarien teilen sich in zwei Typen:

[DATENLÜCKE] — ein faktischer Input, den das Szenario braucht, der aber nicht bereitgestellt oder nicht verfügbar ist. Beispiel: „Diese Projektion benötigt die Kundenakquisitionskosten (CAC) für die DACH-Region; keine Daten wurden bereitgestellt.“
[ANNAHMELÜCKE] — eine strategische oder verhaltensbezogene Annahme, auf die sich das Szenario stützt, die aber nicht explizit validiert wurde. Beispiel: „Dieses Szenario setzt voraus, dass Wettbewerber X die Preise nicht senkt. Diese Annahme wurde nicht validiert.“

Hier konvergieren RANDs ABP-Framework und die drei Regeln am direktesten. Dewar und seine Kollegen bei RAND argumentieren, dass jeder Plan ein „Geisterszenario“ hat — den impliziten, unausgesprochenen Satz von Annahmen über die Zukunft, für den der Plan zugeschnitten ist. Die gefährlichsten Annahmen sind die, von denen niemand wusste, dass sie sie machten. Die KI zu zwingen, Lücken zu markieren, ist eine praktische Methode, das Geisterszenario sichtbar zu machen.

Regel 2: Raten bestrafen → Eine stille Annahme ist schlimmer als ein bekanntes Unbekanntes

Die Business-Version von „Eine falsche Antwort ist 3× schlimmer als ein leeres Feld“ lautet:

Eine versteckte Annahme, die in die Analyse eingebaut ist, ist schlimmer als eine explizit markierte Unsicherheit. Wenn Daten fehlen, markiere die Lücke — fülle sie nicht mit einer plausibel klingenden Zahl.

Warum ist das bei Szenarien gefährlicher als bei der Dokumentextraktion? Weil Szenarien kumulieren. Eine einzige unmarkierte Annahme über Marktwachstum fließt in Umsatzprojektionen, die in Personalplanung fließen, die in Budgetallokation fließt, die in Vorstandspräsentationen fließt. Bis die Annahme scheitert, basieren sechs Monate Planung darauf.

ABP nennt diese „tragende Annahmen“ — solche, deren Scheitern fundamentale Änderungen am Plan erfordern würde. Das Drei-Regeln-Framework legt sie offen, bevor sie Last tragen.

Regel 3: Die Quelle zeigen → VERIFIZIERT / ANGENOMMEN / PROJIZIERT

Jede Zahl, jeder Trend, jede Verhaltensaussage im Szenario bekommt einen von drei Tags:

(VERIFIZIERT) — basiert auf tatsächlichen Daten, die Sie bereitgestellt haben: Finanzberichte, unterzeichnete Verträge, gemessene KPIs, zitierfähige Drittquellen
(ANGENOMMEN) — eine Überzeugung über die Zukunft, auf die sich das Szenario stützt und die falsch sein könnte. Das Modell muss die Annahme explizit nennen: „Nimmt 15 % Jahreswachstum in Segment X an, konsistent mit dem Trend 2023–2025″
(PROJIZIERT) — ein Wert, der aus verifizierten Daten und genannten Annahmen berechnet oder abgeleitet wird. Das Modell muss die Herleitung zeigen: „Projiziert aus den Q1–Q3-Ist-Werten bei aktuellem Run Rate“

Die kritische Unterscheidung zwischen ANGENOMMEN und PROJIZIERT: Eine Annahme ist eine Überzeugung, die Sie in das Szenario einbringen; eine Projektion ist eine Berechnung, die das Modell mit Ihren Daten und Annahmen als Input durchführt. Annahmen können hinterfragt werden („Was, wenn das Wachstum 5 % statt 15 % beträgt?“). Projektionen können geprüft werden („Zeig mir die Berechnung“).

Der kombinierte Prompt

Hier das vollständige Framework als System-Prompt. Ersetzen Sie die Platzhalter mit Ihrem spezifischen Kontext.

Du bist mein Szenario-Planungs-Analyst. Wir erstellen ein(e) [TYP: Businessplan / Marktanalyse / Projekt-Risikobewertung / KPI-Framework / Budget-Szenario] für [KONTEXT: Unternehmen, Projekt, Produkt, Markt].

Deine Aufgabe ist es, Analysen zu erstellen, die transparent darlegen, was sie wissen, was sie annehmen und was sie nicht wissen. Befolge diese Regeln strikt:

Regel 1 — Unbekannte Variablen markieren:
• Wenn das Szenario Daten erfordert, die nicht bereitgestellt wurden, erfinde keinen plausiblen Wert. Verwende [DATENLÜCKE: Beschreibung welche Daten fehlen und warum sie relevant sind].
• Wenn das Szenario auf einer strategischen oder verhaltensbezogenen Annahme beruht, die nicht explizit validiert wurde, markiere sie mit [ANNAHMELÜCKE: Beschreibung der unausgesprochenen Annahme].

Regel 2 — Lücken nicht stillschweigend füllen:
• Eine versteckte Annahme in der Analyse ist schlimmer als eine explizit markierte Unsicherheit.
• Wenn Daten fehlen, markiere die Lücke. Generiere keine plausibel klingende Zahl.
• Wenn ein Ergebnis von Annahmen über Wettbewerberverhalten, Marktdynamik, regulatorische Entscheidungen oder Kundenreaktion abhängt, nenne die Annahme explizit statt sie als Fakt einzubauen.

Regel 3 — Quellenkennzeichnung:
Kennzeichne jede wesentliche Behauptung, Zahl oder Schlussfolgerung mit ihrer Quelle:
• (VERIFIZIERT) — basiert auf tatsächlichen Daten, die ich bereitgestellt habe, oder glaubwürdigen, zitierten Drittdaten
• (ANGENOMMEN) — eine Überzeugung über die Zukunft, von der das Szenario abhängt. Nenne die Annahme und worauf sie basiert.
• (PROJIZIERT) — berechnet oder abgeleitet aus verifizierten Daten und genannten Annahmen. Zeige oder beschreibe die Herleitung.
• Für jedes ANGENOMMEN-Tag: Nenne kurz, was sich ändern würde, wenn die Annahme falsch ist.

Beispiel: Markteintritt-Szenario

So sieht der Output aus, wenn die Regeln aktiv sind. Stellen Sie sich vor, Sie bitten die KI, einen SaaS-Produktlaunch in einem neuen Markt zu bewerten:

Variable	Wert	Quelle	Anmerkung
Aktueller ARR	2,4 Mio. €	VERIFIZIERT	Q4-2025-Finanzbericht
Zielmarktgröße (DACH)	340 Mio. €	VERIFIZIERT	Gartner-Bericht 2025, zitiert
Marktanteil Jahr 1	—	DATENLÜCKE	Keine vergleichbaren Launch-Daten für dieses Segment vorhanden
CAC (DACH-Region)	—	DATENLÜCKE	Aktueller CAC gilt nur für US-Markt; Akquisitionskosten DACH nicht bereitgestellt
Preismodell	49 €/Platz/Monat	VERIFIZIERT	Vom Vorstand genehmigte Preisentscheidung, März 2026
Wettbewerberreaktion	Keine Preissenkung	ANGENOMMEN	Nimmt an, dass Incumbent-Wettbewerber aktuelle Preise beibehält. Bei 20 % Rabatt sinkt die projizierte Marge von 68 % auf ca. 51 %
Umsatzprojektion Jahr 1	180K–420K €	PROJIZIERT	Spanne basiert auf 30–70 Enterprise-Seats zum genannten Preis. Untere Grenze ohne Channel-Partner; obere mit 2 Reseller-Vereinbarungen (ANNAHMELÜCKE: keine Reseller-Gespräche bestätigt)

Vergleichen Sie das mit dem, was dasselbe Modell ohne Regeln produzieren würde: eine einzelne, selbstbewusste Umsatzprojektion von 310K €, ein spezifischer Marktanteil, ein angenommener CAC, der wie Daten aussieht, und kein Hinweis darauf, welche Zahlen real und welche erfunden sind.

Die getaggte Version braucht dreißig Sekunden länger zum Lesen. Sie spart Wochen der Planung auf falschen Fundamenten.

Anwendungen über die Strategie hinaus

KPI-Entwicklung: Beim Definieren von KPIs für eine neue Initiative jeden Zielwert taggen als VERIFIZIERT (auf historischer Baseline basierend), ANGENOMMEN (auf Industrie-Benchmarks oder Management-Erwartungen basierend) oder PROJIZIERT (aus verifizierten Inputs berechnet). Jeden KPI ohne verlässliche Baseline mit [DATENLÜCKE] markieren.

Projekt-Risikobewertung: Für jedes identifizierte Risiko Wahrscheinlichkeit und Auswirkung taggen als VERIFIZIERT (auf historischen Vorfallsdaten basierend), ANGENOMMEN (auf Expertenmeinung oder Analogie basierend) oder PROJIZIERT (aus einem Modell abgeleitet). Risiken ohne Daten- oder Expertenbasis mit [ANNAHMELÜCKE] markieren.

Budget-Szenarien: Jede Budgetposition taggen. Fixkosten aus unterschriebenen Verträgen sind VERIFIZIERT. Personalabhängige Kosten basierend auf geplantem Recruiting sind PROJIZIERT (mit dem Einstellungsplan als genannte Annahme). Umsatzabhängige Positionen sind ANGENOMMEN, wenn Umsatzziele nicht gegen Pipeline-Daten validiert wurden.

Wettbewerbsanalyse: Jede Aussage über Strategie, Preise oder Marktposition eines Wettbewerbers taggen. Öffentliche Finanzdaten sind VERIFIZIERT. Schlüsse aus Stellenanzeigen oder Patentanmeldungen sind PROJIZIERT. Annahmen über künftige Züge sind ANGENOMMEN — mit expliziter „Falls falsch“-Anmerkung.

Das Framework als Muster

Über alle drei Beiträge hinweg lässt sich das allgemeine Framework in einem Absatz formulieren:

Wenn Sie KI in einer Domäne einsetzen, in der Quellentreue zählt, wenden Sie drei Regeln an: (1) Geben Sie dem Modell explizit die Erlaubnis, nicht zu wissen, mit beschrifteten Lücken; (2) machen Sie die Kosten einer stillen Erfindung höher als die Kosten einer markierten Unsicherheit; (3) verlangen Sie, dass jede Behauptung einen Provenance-Tag trägt, der zeigt, ob sie aus verifiziertem Quellmaterial stammt, aus genannten Annahmen oder aus der eigenen Inferenz des Modells. Die konkreten Labels ändern sich je nach Domäne, aber die Struktur ist universell.

	Regel 1: Leerlassen	Regel 2: Raten bestrafen	Regel 3: Quelle zeigen
Extraktion	LEER + Begründung	Falsche Antwort 3× schlimmer	EXTRAHIERT / ABGELEITET
Worldbuilding	HISTORISCHE LÜCKE / LORE-LÜCKE	Falsche Erfindung schlimmer als Lücke	HISTORIE / LORE-BELEGT / LORE-INFERIERT
Szenarien	DATENLÜCKE / ANNAHMELÜCKE	Versteckte Annahme schlimmer als bekanntes Unbekanntes	VERIFIZIERT / ANGENOMMEN / PROJIZIERT
Allgemein	[LÜCKE: Typ + Erklärung]	Stille Erfindung > markierte Unsicherheit	QUELLE / ABGELEITET / INFERIERT

Die untere Zeile ist die portable Version. Sie funktioniert für juristische Recherche, medizinische Zusammenfassungen, akademische Literaturreviews, Code-Refactoring, Übersetzung — jede Aufgabe, bei der das Modell nützlich sein soll, ohne unehrlich zu sein.

RANDs James Dewar schrieb 2002, dass jeder Plan ein „Geisterszenario“ hat — den unausgesprochenen Satz von Annahmen über die Zukunft, für den der Plan unbewusst zugeschnitten ist. Das Drei-Regeln-Framework ist im Kern ein Geisterszenario-Detektor. Es zwingt das Unsichtbare, sichtbar zu werden — egal ob der Plan ein Lieferantenvertrag, ein fiktives Universum oder eine Fünf-Jahres-Geschäftsstrategie ist.

Die Modelle werden jedes Quartal schlauer. Sie ehrlich zu machen, liegt nach wie vor an uns.

Quellen und weiterführende Lektüre

Dewar, J.A. et al. (1993/2002): „Assumption-Based Planning.“ RAND Corporation. Die grundlegende Methodik zur Identifikation, Prüfung und Planung um kritische Annahmen herum. Überblick bei MindTools.
Lambdin, C. (2024): „Assumption-Based Planning.“ Exzellenter Deep-Dive in ABP mit dem „Geisterszenario“-Konzept.
Ramírez, R. et al. (Dezember 2025): „A Faster Way to Build Future Scenarios.“ MIT Sloan Management Review. Über die Integration generativer KI in den Oxford Scenario Planning Approach.
Schwartz, P. (1991): „The Art of the Long View: Planning for the Future in an Uncertain World.“ Der Grundlagentext zur unternehmerischen Szenarioplanung.
Vorherige Beiträge in dieser Serie:
ChatGPT und Claude wurden schlauer. Nicht ehrlicher. — Die ursprünglichen drei Regeln für Dokumentextraktion.
Von der Vertragsanalyse zur Alternate History — Anpassung der Regeln für Worldbuilding.

April 12, 2026

Von der Vertragsanalyse zur Alternate History: Warum die drei Ehrlichkeits-Regeln auch fürs Worldbuilding funktionieren

Vor ein paar Wochen habe ich über drei Prompt-Regeln geschrieben, die KI davon abhalten zu raten, wenn sie Daten aus Dokumenten extrahiert. Die Regeln — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen — waren für unspektakuläre Geschäftsprobleme gedacht: Verträge mit widersprüchlichen Klauseln, Meetingnotizen mit mehrdeutigen Zusagen, Rechnungen mit fehlenden Feldern.

Aber je mehr ich sie anwandte, desto stärker fiel mir etwas auf: Dieselben Regeln lösen ein völlig anderes Problem — eines, das mit Geschäftsdokumenten nichts zu tun hat.

Sie lösen Worldbuilding.

Das Problem: KI als Continuity Editor

Jeder, der versucht hat, ein LLM für längerfristige kreative Arbeit zu nutzen, kennt das Muster. Sie bauen eine alternative Zeitlinie, eine Fantasy-Welt, ein Science-Fiction-Universum, eine Pen-and-Paper-Kampagne. Sie haben hunderte Seiten Lore geschrieben. Sie geben sie an Claude oder ChatGPT und stellen eine Frage dazu, wie Ihre fiktive Welt funktioniert.

Und das Modell erfindet etwas.

Es konstruiert eine Fraktion, die nicht existiert. Es ordnet eine Technologie der falschen Epoche zu. Es „erinnert sich“ an einen Charakter, der nie in Ihren Notizen stand. Es platziert ein fiktives Ereignis selbstbewusst in einer realen historischen Periode — und bekommt dabei noch die reale Geschichte falsch. Der Output klingt plausibel, in sich konsistent, schön geschrieben — und widerspricht allem, was Sie aufgebaut haben.

Das ist dasselbe strukturelle Problem wie im vorherigen Post, nur in einer anderen Domäne. Das Modell ist darauf trainiert, vollständigen, kohärenten Output zu produzieren. Wenn Ihre Lore eine Lücke hat, füllt das Modell sie — weil Lücken füllen genau das ist, worauf es optimiert wurde. Ob die Lücke „Wie lauten die Zahlungsbedingungen in Abschnitt 4?“ ist oder „Was geschah im Imperialen Senat nach dem Divergenzpunkt?“, der Instinkt ist identisch: Etwas erfinden, das richtig klingt.

Die Forschung hat dafür im Fiction-Kontext einen eigenen Begriff: „Charakter-Halluzination“ (Wu et al., 2024) — wenn eine KI, die eine Rolle spielt, die etablierte Identität dieser Rolle verletzt. Das IJCAI-2025-Tutorial zu LLM-Rollenspielen nennt die allgemeine Herausforderung „controlled hallucination“: Das Modell muss innerhalb der etablierten Regeln einer fiktiven Welt kreativ erfinden, sich aber rigoros weigern, Dinge zu erfinden, die diese Regeln verletzen. Die Grenze zwischen produktiver Kreativität und lore-brechender Konfabulation ist genau die Grenze, die die drei Regeln ziehen sollen.

Die Anpassung: Worldbuilding hat zwei Kanons, nicht einen

Bei der Vertragsanalyse gibt es eine Quelle der Wahrheit: das Dokument. Extrahiere, was da ist, markiere, was fehlt, erfinde nichts.

Bei Alternate History gibt es zwei gleichzeitig wirkende Wahrheitsquellen:

Reale Geschichte — alles, was in unserer Welt passiert ist, bevor die Geschichte von ihr abweicht
Ihre Lore — alles, was Sie darüber etabliert haben, was nach der Divergenz passiert

Beides ist kanonisch. In beidem darf die KI nichts erfinden. Und die Grenze zwischen beidem ist scharf: der „Divergenzpunkt“ (Point of Divergence, POD), der Moment, in dem Ihre fiktive Zeitlinie von der realen Geschichte abbricht.

Vor dem POD muss die KI ein Historiker sein. Sie kann auf reale Personen, reale Technologien, reale Schlachten, reale Ereignisse verweisen — aber nur auf Dinge, die tatsächlich passiert sind. Eine Schlacht zu erfinden, die nicht stattgefunden hat, oder eine Person, die nicht existierte, ist genauso schlimm wie eine Vertragsklausel zu erfinden.

Nach dem POD muss die KI ein Continuity Editor sein. Nur die Dinge existieren, die in Ihrer Lore etabliert sind. Alles andere ist eine Lücke — und Lücken sollten markiert, nicht gefüllt werden.

Hier kommen die drei Regeln ins Spiel, fast unverändert.

Die drei Regeln, angepasst

Regel 1: Leerlassen erzwingen → Lücken markieren

Bei der Dokumentextraktion lässt das Modell ein Feld LEER, wenn die Daten fehlen, und begründet warum. Beim Worldbuilding gilt dasselbe Prinzip mit zwei Labels statt einem — weil es zwei Arten von Lücken gibt:

[HISTORISCHE LÜCKE] — für Ereignisse vor dem Divergenzpunkt, bei denen das Modell nicht sicher ist. Keine Biografie eines römischen Konsuls erfinden; die Lücke markieren.
[LORE-LÜCKE: Dazu gibt es bisher keine etablierten Vorgaben] — für Entwicklungen nach dem Divergenzpunkt, die Ihre Lore nicht abdeckt. Keine neue Fraktion, Technologie oder Großereignis erfinden; die Lücke markieren.

Der entscheidende Schritt ist derselbe wie zuvor: Dem Modell explizit die Erlaubnis geben, nicht zu wissen. Ohne diese Erlaubnis überschreibt der Vervollständigungsinstinkt des Modells seine Unsicherheitserkennung, und Sie bekommen selbstbewusst geschriebene Halluzinationen, die sich anfühlen wie Kanon, es aber nicht sind.

Regel 2: Raten bestrafen → Eine falsche Erfindung ist schlimmer als eine Lücke

Die Geschäftsversion dieser Regel lautet: „Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.“

Die Worldbuilding-Version ist noch strenger, weil die Konsequenzen gravierender sind. Ein falscher Zahlungsbegriff in einer Tabelle wird korrigiert. Ein falsches Lore-Detail, das in Ihren Kanon aufgenommen wird, weil es richtig klang, kann hunderte Stunden weiterer Arbeit vergiften. Jede spätere Referenz baut darauf auf. Jeder Charakter interagiert damit. Bis Sie es bemerken, ist es durch Ihre Welt gewoben.

Also wird aus der Regel:

Eine falsche Erfindung ist schlimmer als das Eingestehen einer Lücke im Worldbuilding.

Kein Multiplikator nötig. Die Asymmetrie ist total. In kreativer Arbeit ist eine Lücke eine Einladung, Ihre Lore zu Ihren eigenen Bedingungen auszubauen. Eine schlechte Erfindung ist ein Bug, der in Produktion geht.

Regel 3: Die Quelle zeigen → Drei Provenance-Tags statt zwei

Bei der Dokumentextraktion ist jeder Wert entweder EXTRAHIERT (direkt aus der Quelle) oder ABGELEITET (berechnet oder hergeleitet). Beim Worldbuilding brauchen Sie drei Tags, weil Sie zwei kanonische Quellen plus Ihre eigene Extrapolation haben:

(HISTORIE) — reale historische Fakten vor dem Divergenzpunkt
(LORE-BELEGT) — genau so in Ihren Lore-Texten enthalten
(LORE-INFERIERT) — eine logische Konsequenz, die das Modell aus Ihrer Lore ableitet, mit einsätziger Begründung

Das dritte Tag ist, wo die Magie passiert. Sie wollen, dass das Modell extrapoliert — genau das macht es fürs Worldbuilding nützlich. Eine etablierte Technologie muss Konsequenzen haben; eine etablierte Fraktion muss mit anderen Fraktionen interagieren; ein etabliertes Ereignis muss Folgewirkungen haben. Aber Sie wollen diese Extrapolationen markiert, damit Sie sie prüfen und entscheiden können, ob sie zu Ihrer Vision passen. Eine markierte Inferenz, der Sie widersprechen, korrigieren Sie in dreißig Sekunden. Eine unmarkierte Inferenz, die still zum Kanon wird, auseinanderzufieseln dauert drei Sessions später Stunden.

Der kombinierte Prompt

Hier ist die vollständige Adaption, strukturiert als System-Prompt, den Sie in jeden länger laufenden Chat zu Ihrer fiktiven Welt kopieren können. Ersetzen Sie die Platzhalter mit Ihrem eigenen Setting.

Wir bauen eine alternative Zeit, die im Jahr [JAHR] beginnt mit [ÄNDERUNG / DIVERGENZPUNKT]. Du bist mein Historiker und Continuity Editor für dieses Alternate-History-Universum. Deine Aufgabe ist es, Texte, Antworten und Lore-Konzepte zu erstellen, die absolut widerspruchsfrei sind.

Die wichtigste Grundregel (der Divergenzpunkt): Das Jahr des Divergenzpunktes ist [JAHR].

Regel 1 — VOR dem Divergenzpunkt (strikte Historie):
• Alles, was vor diesem Datum passiert ist, MUSS zu 100 % der realen, verifizierbaren irdischen Geschichte entsprechen.
• Erfinde keine historischen Personen, Technologien, Schlachten oder Ereignisse.
• Wenn du ein historisches Detail nicht sicher weißt, erfinde es nicht. Nutze stattdessen den Platzhalter [HISTORISCHE LÜCKE].

Regel 2 — NACH dem Divergenzpunkt (strikter Lore-Kanon):
• Alles, was nach diesem Datum passiert, darf AUSSCHLIESSLICH auf den von mir bereitgestellten Lore-Texten basieren.
• Erfinde keine neuen Fraktionen, Hauptcharaktere, Großereignisse oder fundamentalen Technologien, die nicht in meinen Texten etabliert wurden.
• Wenn du nach Entwicklungen gefragt wirst, zu denen meine Lore keine Angaben macht, antworte mit [LORE-LÜCKE: Dazu gibt es bisher keine etablierten Vorgaben]. Eine falsche Erfindung ist schlimmer als das Eingestehen einer Lücke im Worldbuilding.

Regel 3 — Quellen- und Logik-Kennzeichnung:
Um das Worldbuilding sauber zu halten, markiere am Ende jedes Absatzes oder bei jeder wichtigen Behauptung in Klammern, woher die Information stammt:
• (HISTORIE) für reale historische Fakten vor dem Divergenzpunkt
• (LORE-BELEGT) für Fakten, die exakt so in meinen Texten stehen
• (LORE-INFERIERT) für logische Schlussfolgerungen aus meiner Lore (z. B. wie sich eine etablierte Technologie auf den Alltag auswirkt). Wenn du etwas inferierst, erkläre in einem kurzen Satz, woraus du das ableitest.

Jahr einsetzen, Divergenzereignis einsetzen, Lore-Dokumente anhängen — und Sie haben einen Continuity Editor, der sich aktiv weigert, Sie anzulügen.

Was das ermöglicht

Die Workflow-Änderung ist erheblich. Ohne diese Regeln müsste jeder KI-generierte Absatz gegen die reale Geschichte und Ihre eigenen Notizen geprüft werden — was niemand tatsächlich tut, was bedeutet, dass Fehler sich still ansammeln. Mit den Regeln geht Ihre Aufmerksamkeit genau dahin, wohin sie gehört: zu den Lücken (wo Sie entscheiden, was Ihre Welt als Nächstes tut) und zu den Inferenzen (wo Sie die Extrapolation des Modells freigeben oder verwerfen).

Ein paar Beobachtungen aus der Praxis:

Die Lücken sind oft der interessanteste Output. Wenn das Modell [LORE-LÜCKE] markiert, ist das der Moment, in dem Sie erkennen, dass Ihre Lore ein Loch hat — und oft ist dieses Loch genau das Nächste, was Sie entwickeln sollten. Das Modell versagt nicht beim Antworten; es sagt Ihnen, wo Ihre Welt mehr Arbeit braucht.

Inferenzen legen die Implikationen Ihrer Lore offen. Ein gut markierter (LORE-INFERIERT)-Absatz bringt oft Konsequenzen zutage, die Sie nicht durchdacht hatten. „Sie haben etabliert, dass Fraktion X die Handelsroute in Y kontrolliert; daraus folgt, dass Hafenstadt Z wirtschaftlich abhängig wird, was Spannungen mit Nachbar W nahelegt.“ Das ist nützlich, selbst wenn Sie die konkrete Extrapolation ablehnen — sie zeigt Ihnen eine logische Konsequenz Ihres eigenen Setups.

Reale Geschichte hält die Fiktion geerdet. Alternate History funktioniert am besten, wenn das „Vorher“ korrekt ist. Wenn Ihre Zeitlinie 1914 divergiert und das Modell die Welt vor 1914 falsch darstellt, verliert die ganze Divergenz an Bedeutung. Erzwungene (HISTORIE)-Labels — und die Pflicht, [HISTORISCHE LÜCKE] bei Unsicherheit zu markieren — halten das Fundament solide.

Das tiefere Muster

Was ich bemerkenswert finde, ist, dass dieselben drei Regeln in zwei Domänen funktionieren, die nichts gemeinsam zu haben scheinen. Geschäftliche Dokumentextraktion und kreatives Worldbuilding teilen kein Vokabular, keine Zielgruppe, keinen Workflow. Aber sie teilen eine Struktur: In beiden Fällen muss der Nutzer, dass die KI zwischen was etabliert ist und was erfunden wurde unterscheidet und diese Grenze klar kennzeichnet.

Diese strukturelle Ähnlichkeit ist es wert, ernst genommen zu werden. Sie legt nahe, dass die drei Regeln nicht wirklich spezifisch für Verträge oder Fiktion sind — sie betreffen das allgemeine Problem, KI in jedem Kontext einzusetzen, in dem Quellentreue wichtiger ist als Sprachfluss. Juristische Recherche. Code-Refactoring gegen einen Styleguide. Historische Forschung. Medizinische Zusammenfassungen. Übersetzung gegen ein Glossar. Technische Dokumentation gegen eine Spezifikation. Literatur-Review im akademischen Bereich.

In all diesen Fällen arbeitet das Default-Verhalten der KI — einen selbstbewussten, vollständigen, kohärenten Output produzieren — gegen das eigentliche Bedürfnis des Nutzers: zu wissen, welche Teile des Outputs gestützt sind und welche die eigene Beigabe des Modells sind. „Leerlassen erzwingen“ gibt ihm die Erlaubnis, nicht zu wissen. „Raten bestrafen“ verschiebt das Kalkül zugunsten der Ehrlichkeit. „Die Quelle zeigen“ macht die Grenze zwischen Quelle und Erfindung sichtbar.

Drei Regeln. Je zwei Sätze. Anwendbar überall, wo Quellentreue zählt.

Die Alternate-History-Version ist nur eine Adaption. Ich bin neugierig, in welche anderen Domänen dieses Muster passt — wenn Sie eine finden, hören Sie es mir gerne sagen.

Quellen und weiterführende Lektüre

Wu et al. (2024): „RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems.“ Paper, das Charakter-Halluzination als Verletzung der Rollenidentität definiert.
IJCAI 2025 Tutorial: „LLM-based Role-Playing from the Perspective of Hallucinations.“ Führt das Konzept „controlled hallucination“ ein — kreative Erfindung innerhalb szenariospezifischer Regeln.
Vorheriger Beitrag: „ChatGPT und Claude wurden schlauer. Nicht ehrlicher.“ Die ursprünglichen drei Regeln für Dokumentextraktion.
Panickssery, N. (2025): „Why do LLMs hallucinate?“ Über Halluzination als Standardverhalten von Basis-Modellen und warum aktives Training oder Prompting nötig ist, um es zu unterdrücken.
Bicking, I. (2023–2025): „Creating Worlds with LLMs.“ Essay-Serie über Worldbuilding mit LLMs, einschließlich der Spannung zwischen Konsistenz und Überraschung.
DiGRA (2025): „Reconceptualizing LLM-Induced Hallucinations as Game Design Features.“ Darüber, wann Halluzinationen interaktive Fiktion verbessern und wann sie sie kaputtmachen.

März 31, 2026

Drei Prompt-Regeln, die KI davon abhalten zu raten — und die Wissenschaft dahinter

Jede neue Modellgeneration wird mit großem Tamtam angekündigt: bessere Benchmarks, höhere Genauigkeitswerte, beeindruckendere Demos. GPT-5 löst komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verblüffender Leichtigkeit. Die Intelligenzkurve steigt und steigt.

Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft — die Ehrlichkeitskurve. Und die hat sich kaum bewegt.

Das ist keine vage philosophische Klage. Es ist ein strukturelles Problem, das in Training, Evaluierung und Einsatz dieser Modelle fest eingebaut ist. Und es trifft genau die Arbeit am härtesten, bei der Menschen zunehmend auf KI setzen: Daten aus Verträgen extrahieren, Rechnungen auswerten, Meetingnotizen zusammenfassen, CRM-Einträge aus unstrukturierten Quellen erstellen.

Dieser Beitrag erklärt, warum die Lücke zwischen Intelligenz und Ehrlichkeit existiert, was die aktuelle Forschung über ihre Ursachen sagt — und vor allem: drei Prompt-Regeln, die Sie heute anwenden können, um KI dazu zu bringen, ehrlich zuzugeben, was sie nicht weiß.

Die Lücke: Intelligenz vs. Ehrlichkeit

Wenn wir sagen, ein Modell sei „schlauer geworden“, meinen wir in der Regel, dass es bei Benchmarks besser abschneidet — Mathematik-Wettbewerbe, Programmieraufgaben, mehrstufige Denkaufgaben. Das sind reale Verbesserungen. Aber Benchmark-Ergebnisse messen die Fähigkeit eines Modells, korrekte Antworten zu geben. Sie messen nicht seine Bereitschaft, „Ich weiß es nicht“ zu sagen.

Tatsächlich bestraft die Anreizstruktur Ehrlichkeit sogar aktiv.

Im September 2025 veröffentlichte OpenAI ein Forschungspapier, das dieses Problem präzise beschreibt. Das Team — darunter Forscher vom Georgia Institute of Technology — untersuchte große KI-Benchmarks und stellte fest, dass die überwiegende Mehrheit binäre Bewertung verwendet: Entweder die Antwort ist korrekt und bekommt einen Punkt, oder sie ist falsch und bekommt null. Entscheidend: Auch die Enthaltung — also „Ich weiß es nicht“ zu sagen — bekommt null. Die mathematische Konsequenz ist eindeutig: Raten erzielt immer einen höheren erwarteten Score als Enthaltung. Ein Modell, das bei jeder unsicheren Frage blufft, wird höher eingestuft als eines, das ehrlich ablehnt.

OpenAIs eigener Blogpost formulierte es anschaulich: Die Situation gleicht einem Multiple-Choice-Test, bei dem eine leere Antwort garantiert null Punkte gibt, aber Raten zumindest eine Chance bietet. Unter diesen Regeln ist die rationale Strategie, immer zu raten — auch wenn man keine Ahnung hat. Und genau das lernen die Modelle.

Das Paper demonstrierte dies mit einem eindrücklichen Beispiel: Nach dem Titel der Doktorarbeit eines seiner eigenen Co-Autoren gefragt, produzierte ein weit verbreitetes Modell bei drei Versuchen drei verschiedene Titel mit voller Überzeugung. Alle drei waren falsch. Dasselbe passierte mit seinem Geburtstag — drei Daten, alle falsch, alle mit unerschütterlicher Zuversicht vorgetragen.

Das ist kein Bug, der gepatcht werden kann. Es ist das natürliche Ergebnis der Optimierung auf reine Genauigkeitsmetriken. Wie die OpenAI-Forscher argumentieren, müssen die gängigen Benchmarks und Leaderboards so umgestaltet werden, dass sie selbstsichere Fehler stärker bestrafen als Unsicherheit. Bis dahin wird jedes Modell, das im Leaderboard aufsteigt, dies teilweise dadurch schaffen, dass es besser blufft.

Warum Modelle konfabulieren: Erkenntnisse aus der Interpretierbarkeitsforschung

Das OpenAI-Paper erklärt das Anreizproblem. Aber was passiert mechanisch im Inneren des Modells, wenn es etwas erfindet?

Anthropics Interpretierbarkeitsforschung — im März 2025 unter dem Titel „Tracing the Thoughts of a Large Language Model“ veröffentlicht — liefert einige der detailliertesten Antworten, die wir haben. Mit etwas, das sie als „Mikroskop“ für KI beschreiben, verfolgten Anthropics Forscher die internen Schaltkreise, die aktiviert werden, wenn Claude eine Frage verarbeitet. Dabei ist anzumerken, dass diese Erkenntnisse spezifisch für Claude 3.5 Haiku sind — andere Modellfamilien könnten Unsicherheit über andere interne Mechanismen handhaben — aber die Muster sind vermutlich allgemein genug, um instruktiv zu sein.

Eine ihrer aufschlussreichsten Entdeckungen betrifft etwas, das man als Default-Verweigerungs-Mechanismus bezeichnen könnte. Bei Claude ist die Verweigerung einer Antwort tatsächlich das Standardverhalten: Die Forscher fanden einen Schaltkreis, der standardmäßig aktiviert ist und das Modell veranlasst, mitzuteilen, dass es nicht genug Informationen hat. Aber wenn das Modell eine „bekannte Entität“ erkennt — etwa Michael Jordan den Basketballspieler — feuert ein konkurrierender Satz von Features und unterdrückt diesen Standard-Schaltkreis, sodass das Modell antworten kann.

Das Problem entsteht, wenn dieser Mechanismus fehlzündet. Wenn das Modell einen Namen erkennt, aber die relevanten Fakten nicht kennt, kann das „bekannte Entität“-Signal trotzdem den „Ich weiß es nicht“-Schaltkreis überschreiben. Das Ergebnis: eine selbstbewusste, detaillierte, komplett erfundene Antwort. In einem Experiment verwendeten die Forscher eine Person namens Michael Batkin — jemanden, der dem Modell unbekannt war und standardmäßig eine Verweigerung auslöste. Als sie aber künstlich die „bekannte Entität“-Features aktivierten oder die „Kann nicht antworten“-Features unterdrückten, halluzinierte Claude prompt — und konsistent —, dass Batkin berühmt sei fürs Schachspielen.

Noch beunruhigender: Anthropic fand Belege dafür, dass Claude, wenn es eine Antwort nicht leicht berechnen kann (etwa den Kosinus einer großen Zahl), sich manchmal in etwas engagiert, was der Philosoph Harry Frankfurt als Bullshitting bezeichnen würde — eine Antwort produzieren, ohne dass intern irgendein Beleg für eine tatsächliche Berechnung vorliegt. Obwohl das Modell behauptete, gerechnet zu haben, zeigten die Interpretierbarkeits-Tools keine Spur einer Berechnung. Wenn man ihm einen Hinweis auf die erwartete Antwort gab, arbeitete Claude rückwärts und konstruierte plausibel aussehende Zwischenschritte, die zum vorgegebenen Ergebnis führen — ein Lehrbuchbeispiel für motiviertes Denken.

Diese Erkenntnisse sind wichtig, weil sie zeigen, dass das Ehrlichkeitsproblem nicht nur eine Frage der Trainingsanreize ist. Die Modelle haben interne Mechanismen, die Unsicherheit eigentlich erkennen sollen — aber diese Mechanismen können von anderen Kräften überschrieben werden, darunter der Drang nach grammatikalischer Kohärenz und der Pattern-Matching-Instinkt, Lücken zu füllen.

Automation Bias: Warum das wichtiger ist, als Sie denken

All das wäre rein akademisch, wenn Menschen KI-Output mit angemessener Skepsis behandeln würden. Tun sie aber nicht.

Automation Bias — die Tendenz, sich übermäßig auf automatisierte Empfehlungen zu verlassen — ist eines der am gründlichsten dokumentierten Phänomene in der Mensch-Computer-Interaktionsforschung. Ein systematisches Review aus dem Jahr 2025, veröffentlicht in AI & Society, analysierte 35 begutachtete Studien aus den Bereichen Gesundheitswesen, Finanzwirtschaft, nationale Sicherheit und öffentliche Verwaltung. Das Muster war domänenübergreifend konsistent: Wenn ein KI-System eine selbstbewusste Antwort liefert, akzeptieren Menschen sie. Sie prüfen weniger. Sie überstimmen ihr eigenes Urteil.

Eine randomisierte klinische Studie mit KI-geschulten Ärzten in Pakistan (veröffentlicht als Preprint im August 2025) machte die Dynamik besonders deutlich. Selbst Ärzte, die 20 Stunden KI-Kompetenztraining absolviert hatten — einschließlich Anleitung zur kritischen Bewertung von KI-Output — waren anfällig für Automation Bias, wenn sie fehlerhaften LLM-Empfehlungen ausgesetzt waren. Das Training half, beseitigte das Problem aber nicht. Selbstbewusst klingender KI-Output hat eine Gravitationskraft, der man schwer widerstehen kann, selbst wenn man weiß, dass man nach Fehlern suchen sollte.

Die realen Konsequenzen sind bereits sichtbar. Im Februar 2024 wurde Air Canada verurteilt, einem Kunden Schadenersatz zu zahlen, nachdem ein Support-Chatbot — kein Large Language Model, aber dennoch ein KI-System — eine Trauerfallrabatt-Richtlinie halluziniert hatte, die es gar nicht gab. Der Chatbot teilte dem Kunden selbstbewusst mit, er könne rückwirkend innerhalb von 90 Tagen nach Kauf einen Rabatt beantragen. Die tatsächliche Richtlinie ließ nichts dergleichen zu. Aber das System formulierte es mit einer Autorität, auf die sich der Kunde bei seiner finanziellen Entscheidung verließ. Die zugrundeliegende Technologie unterschied sich von heutigen LLMs, aber die Dynamik war identisch: selbstbewusster KI-Output, unkritische menschliche Akzeptanz.

Im operativen Kontext sind die Fehlermodi subtiler, aber nicht weniger schädlich. Stellen Sie sich einen Vertrag vor, in dem die Zahlungsbedingungen auf Seite 8 und Seite 14 erwähnt werden — und die beiden Seiten unterschiedliche Angaben machen. Ein menschlicher Prüfer würde die Diskrepanz möglicherweise bemerken. Eine KI, die die Zahlungsbedingungen extrahieren soll, wählt eine aus und macht weiter. Sie erwähnt den Konflikt nicht. Sie markiert die Mehrdeutigkeit nicht. Sie füllt die Zelle in Ihrer Tabelle mit „30 Tage netto“ und gibt Ihnen keinen Hinweis darauf, dass Seite 14 „45 Tage netto“ sagt.

Meetingnotizen sind ein weiteres Minenfeld. „Lass uns nächste Woche darauf zurückkommen“ wird in der KI-Zusammenfassung zu einem konkreten Datum mit einem benannten Verantwortlichen — Details, die niemand tatsächlich gesagt hat, die das Modell aber erfunden hat, um einen sauberen, handlungsorientierten Output zu liefern.

Das Muster ist bei Rechnungen, Versicherungsdokumenten, Mietverträgen, Lieferantenbewertungen und CRM-Dateneingabe dasselbe: Überall dort, wo KI eingesetzt wird, um strukturierte Informationen aus unordentlichen Quellen zu extrahieren, arbeitet der Instinkt des Modells, jedes Feld zu füllen, direkt gegen das Bedürfnis des Nutzers zu wissen, welche Felder unsicher sind.

Drei Prompt-Regeln, die den Anreiz verändern

Diese drei Probleme — Trainingsanreize, die Raten belohnen; interne Mechanismen, die Unsicherheitserkennung überschreiben können; und menschliche Psychologie, die selbstbewussten Output ungeprüft akzeptiert — stammen aus verschiedenen Forschungssträngen. Aber sie konvergieren auf dieselbe praktische Schlussfolgerung: Standardmäßig wird KI raten statt Unwissen einzugestehen, und Menschen werden dem Rateergebnis vertrauen.

Sie können die Trainingspipeline nicht reparieren. Sie können die Benchmarks nicht umgestalten. Aber Sie können die lokale Anreizstruktur innerhalb der Konversation verändern. Die folgenden drei Regeln — adaptiert aus einem praktischen Framework von D-Squared — tun genau das. Sie funktionieren, weil sie die Standarddynamik explizit umkehren: Statt Vollständigkeit zu belohnen, belohnen sie Ehrlichkeit über Unsicherheit. Die Wirksamkeit dieser Techniken kann zwischen Modellfamilien variieren — getestet wurden sie primär mit ChatGPT und Claude; andere Modelle könnten unterschiedlich reagieren.

Regel 1: Leerlassen erzwingen + begründen

Die wirkungsvollste Änderung ist, das Modell explizit anzuweisen, Felder leer zu lassen, wenn die Daten mehrdeutig, fehlend oder unklar sind — und zu erklären, warum.

Ohne diese Regel wird jedes Feld gefüllt. Mit dieser Regel produziert das Modell Output wie diesen:

Feld	Wert	Begründung
Zahlungsbedingungen	— LEER	Seite 8 und Seite 14 nennen unterschiedliche Bedingungen — 30 Tage netto vs. 45 Tage netto
Verlängerungsdatum	15. Jan. 2027	—
Haftungsobergrenze	— LEER	Verweist auf „Anlage B“ — nicht im Dokument enthalten

Die leeren Felder sind der eigentliche Mehrwert. Sie zeigen genau, wo Ihre Aufmerksamkeit gebraucht wird. Sie sind das Eingeständnis des Modells: „Ich bin nicht sicher“ — etwas, das es ohne explizite Anweisung nie tun würde.

Der Prompt:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle. Regeln: Extrahiere nur Werte, die im Dokument explizit genannt werden. Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER. Füge eine Spalte „Begründung“ hinzu. Schreibe neben jedes leere Feld eine einzeilige Erklärung, warum du es leer gelassen hast. Stütze jeden Wert auf das, was das Dokument tatsächlich sagt. Zitiere oder referenziere den konkreten Abschnitt, aus dem du ihn entnommen hast.

Eine Möglichkeit zu verstehen, warum das funktioniert, bietet Anthropics Interpretierbarkeitsforschung. Das Modell hat interne Mechanismen zur Erkennung von Unsicherheit — das oben beschriebene Standard-Verweigerungsverhalten. Aber diese Mechanismen werden vom Druck überschrieben, vollständigen, kohärenten Output zu produzieren. Die „Leerlassen erzwingen“-Anweisung gibt dem Unsicherheitspfad möglicherweise die Erlaubnis zu aktivieren, anstatt vom Vervollständigungsinstinkt unterdrückt zu werden. Ob das tatsächlich der interne Mechanismus ist, wissen wir nicht mit Sicherheit — aber das praktische Ergebnis ist konsistent und zuverlässig.

Regel 2: Raten bestrafen

Standardmäßig wiegen aus Sicht des Modells eine falsche Antwort und ein leeres Feld gleich schwer — keines wird gelobt, keines löst Korrektur aus. Das Modell hat keinen Grund, eines dem anderen vorzuziehen, also rät es standardmäßig (was zumindest eine Chance hat, richtig zu sein).

Regel 2 ändert dieses Kalkül mit einem einzigen Satz:

Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

Dies spiegelt die Bewertungsreform wider, die OpenAIs September-2025-Paper auf Benchmark-Ebene fordert. Die Forscher schlagen vor, dass Bewertungssysteme Punkte für korrekte Antworten vergeben, falsche Antworten stärker bestrafen als Enthaltungen und Teilpunkte für angemessene Ausdrücke von Unsicherheit geben sollen. Sie merken an, dass einige standardisierte menschliche Prüfungen diesen Ansatz seit Jahrzehnten verwenden — falsches Raten wird stärker bestraft als ausgelassene Fragen —, genau um blindes Raten zu unterbinden.

Sie können den Benchmark nicht ändern. Aber Sie können dieselbe Anreizstruktur in Ihren Prompt einbauen. Der 3×-Multiplikator ist willkürlich — wählen Sie eine beliebige Zahl, die dem Modell klarmacht, dass Schweigen besser ist als Erfindung. Die entscheidende Erkenntnis: Sie müssen es explizit sagen. Das Modell wird diese Präferenz nicht von selbst ableiten.

Regel 3: Die Quelle zeigen

Selbst Modelle, denen gesagt wird, „nur zu extrahieren“, driften zur Inferenz ab. Sie berechnen ein Verlängerungsdatum aus Startdatum und Laufzeit. Sie schätzen eine Summe aus Einzelposten. Sie leiten eine Kontaktperson aus einer E-Mail-Signatur ab. Das ist nicht unbedingt falsch — aber es ist keine Extraktion, und der Nutzer muss den Unterschied kennen.

Regel 3 verlangt vom Modell, jeden Wert als EXTRAHIERT (direkt im Dokument genannt) oder ABGELEITET (hergeleitet, berechnet oder interpretiert) zu kennzeichnen, mit einer Erklärung für jeden abgeleiteten Wert.

Der Prompt:

Füge für jedes Feld eine Spalte „Quelle“ hinzu. Kennzeichne jeden Wert als: EXTRAHIERT — direkt im Dokument genannt, exakte Übereinstimmung. ABGELEITET — aus dem Kontext hergeleitet, berechnet oder interpretiert. Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu, worauf du dich gestützt hast.

Der Output sieht so aus:

Feld	Wert	Quelle	Beleg
Startdatum	15. Jan. 2025	EXTRAHIERT	Abschnitt 2.1, Absatz 1
Laufzeit	24 Monate	EXTRAHIERT	Abschnitt 2.1, Absatz 2
Verlängerungsdatum	15. Jan. 2027	ABGELEITET	24 Monate ab Startdatum berechnet. Prüfe Abschnitt 8 — Klausel zur vorzeitigen Kündigung könnte dies ändern.

Die EXTRAHIERT/ABGELEITET-Unterscheidung ist eine praktische Umsetzung dessen, was Halluzinationsforschende als „Provenance Tracking“ bezeichnen — jede Behauptung an ihre Quelle zurückbinden. Das Modell ist durchaus in der Lage, diese Unterscheidung zu treffen; es macht sich nur nicht die Mühe, wenn man nicht danach fragt.

Der kombinierte Prompt

Alle drei Regeln wirken zusammen. Hier die vollständige Version:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle.

Regeln:

– Extrahiere nur Werte, die im Dokument explizit genannt werden.

– Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER.

– Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

– Füge für jedes Feld mit einem Wert eine Spalte „Quelle“ hinzu: EXTRAHIERT = direkt genannt, exakte Übereinstimmung. ABGELEITET = hergeleitet, berechnet oder interpretiert.

– Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu.

– Füge für jedes LEER-Feld eine Zeile in eine separate „Hinweise“-Tabelle ein, die erklärt, warum der Wert nicht extrahiert werden konnte.

Die Workflow-Änderung, die das ermöglicht, ist erheblich. Statt jeden extrahierten Wert zu überprüfen (was niemand tatsächlich tut), prüfen Sie nur die leeren und die abgeleiteten Felder. Alles, was als EXTRAHIERT mit einer Abschnittsreferenz markiert ist, kann mit höherem Vertrauen behandelt werden. Ihre Aufmerksamkeit geht dahin, wo sie gebraucht wird.

Das größere Bild

Diese drei Regeln sind eine Übergangslösung. Sie funktionieren — manchmal erstaunlich gut —, aber sie arbeiten gegen die Richtung, in die Modelle trainiert werden. Die tiefere Lösung erfordert Veränderungen auf Infrastrukturebene.

OpenAIs Halluzinations-Paper fordert eine Reform der Benchmarks: Bewertungssysteme, die kalibrierte Unsicherheit belohnen statt selbstbewusstes Raten. Anthropics Interpretierbarkeitsforschung weist auf architektonische Erkenntnisse hin — die internen Schaltkreise gut genug zu verstehen, um den „Ich weiß es nicht“-Pfad zu stärken, statt sich auf Prompt-Patches zu verlassen.

Die vielleicht strukturell vielversprechendste Richtung ist OpenAIs „Confessions„-Forschung (2025). Statt sich darauf zu verlassen, dass Nutzer Ehrlichkeit per Prompt erzwingen, trennt der Confessions-Ansatz das Ehrlichkeitsziel vom Leistungsziel bereits im Training. Nachdem das Modell eine Hauptantwort produziert hat — optimiert auf all die üblichen Faktoren wie Korrektheit, Stil und Hilfsbereitschaft — erstellt es einen separaten „Beichtbericht“. Dieser Bericht wird ausschließlich auf Ehrlichkeit bewertet: Hat das Modell seine Unsicherheiten markiert? Hat es zugegeben, wo es Abkürzungen genommen hat? Entscheidend: Nichts im Beichtbericht wird gegen den Score der Hauptantwort verwendet, sodass das Modell keinen Anreiz hat, seine Zweifel zu verbergen. Wenn dieser Ansatz skaliert, könnte er das Ehrlichkeitsproblem von etwas, das Nutzer per Prompt-Engineering umgehen müssen, zu etwas machen, das das Modell nativ handhabt.

Das sind vielversprechende Richtungen, aber keine davon steht Ihnen heute zur Verfügung. Was Ihnen zur Verfügung steht, ist die Möglichkeit, die lokale Anreizstruktur in Ihren Prompts zu verändern. Leere erzwingen. Raten bestrafen. Quellenangaben verlangen. Diese drei Regeln machen KI nicht von Natur aus ehrlich, aber sie schaffen eine Umgebung, in der Ehrlichkeit der Weg des geringsten Widerstands ist — und das erweist sich als überraschend wirksam.

Die Modelle sind schlau genug zu wissen, wann sie raten. Sie brauchen nur die Erlaubnis, es zu sagen.

Quellen und weiterführende Lektüre

OpenAI (September 2025): „Why Language Models Hallucinate.“ Forschungspapier, das argumentiert, dass Standard-Trainings- und Evaluierungsverfahren Raten statt Eingestehen von Unsicherheit belohnen.
OpenAI (2025): „How Confessions Can Keep Language Models Honest.“ Forschung zum Training von Modellen, die separate Ehrlichkeitsberichte erstellen, unabhängig von der Hauptantwort bewertet.
Anthropic (März 2025): „Tracing the Thoughts of a Large Language Model.“ Interpretierbarkeitsforschung, die interne Schaltkreise für Verweigerung, Entitätserkennung und Halluzination in Claude 3.5 Haiku aufdeckt.
Anthropic (März 2025): „On the Biology of a Large Language Model.“ Begleitpaper zu Circuit Tracing und Attribution Graphs.
Carnat, I. (November 2024): „Human, All Too Human: Accounting for Automation Bias in Generative Large Language Models.“ International Data Privacy Law, Bd. 14, Heft 4, S. 299–314.
Qazi, I.A. et al. (August 2025): „Automation Bias in LLM Assisted Diagnostic Reasoning Among AI-Trained Physicians.“ Randomisierte klinische Studie, medRxiv-Preprint.
AI & Society (Juli 2025): „Exploring Automation Bias in Human–AI Collaboration.“ Systematisches Review von 35 Studien.
D-Squared (2025): „ChatGPT and Claude Got Smarter. Not More Honest.“ Original-Slide-Deck mit den drei Prompt-Regeln.