Kategorie: AI

Juni 28, 2026

Agentic AI Authoring: Sie bleiben am Steuer: An KI-Agenten delegieren, ohne die Verantwortung abzugeben

Der Wandel 2026 vom Gespräch mit KI zur Delegation — und Delegation hat Konsequenzen, über die die Anbieter nicht reden.

Stellen Sie sich eine Beratungsfirma mit 40 Mitarbeitenden vor, die einen automatisierten Assistenten so einrichtet, dass er eingehende Support-Mails liest, passenden Kontext aus dem Firmenwiki zieht und Antworten entwirft. Um Zeit zu sparen, schaltet das Team von „Entwurf zur Freigabe“ auf „automatisch versenden unterhalb einer Konfidenzschwelle“ um.

Drei Wochen später ruft ein Kunde an. Er hat eine E-Mail erhalten, in der ihm eine Rückerstattung zugesagt wird, die das Unternehmen nie genehmigt hat. Der Agent hat aus einigen früheren Fällen verallgemeinert und entschieden, dass dies die richtige Antwort sei. Die E-Mail wurde unter dem Namen einer echten Person verschickt. Der Kunde hat sie bereits an seinen Rechtsbeistand weitergeleitet.

Wer trägt die Verantwortung?

Der Agent hat keine Rechtspersönlichkeit. Die AGB des Anbieters schließen die Haftung für Output mit ziemlicher Sicherheit aus. Die Mitarbeiterin, deren Unterschrift unter der Nachricht stand, hat sie nicht geschrieben. Der Manager, der den Schalter umgelegt hat, hat genau diese E-Mail nie gesehen. Der Agent hat es getan, aber alle anderen tragen die Folgen.

In meinem letzten Artikel habe ich argumentiert, dass die neuen Modelle klüger geworden sind, aber nicht ehrlicher. Diese Asymmetrie war schon unangenehm, solange sie nur sprachen. Sie wird tragend, sobald sie handeln.

Vom Gespräch zur Delegation

Der eigentliche Wandel 2026 ist nicht das, was die meisten „KI am Arbeitsplatz“-Artikel behaupten. Modelle sind keine Partner geworden. Sie haben weder Urteilsvermögen, noch Rechenschaftspflicht, noch etwas, das auf dem Spiel steht, entwickelt. Was sich geändert hat, ist, dass sie jetzt *Dinge tun können*: surfen, klicken, Code ausführen, Dateien bearbeiten, Nachrichten verschicken, Zustände in Systemen verändern, von denen Sie abhängen.

Das ist keine Partnerschaft. Partner teilen Urteil und Konsequenzen. Was Sie tatsächlich haben, ist ein hochfähiger **Beauftragter**: Sie autorisieren, er führt aus, Sie tragen das Ergebnis.

Der Unterschied ist wichtig, denn Recht, Vertrag und Organigramm wissen längst, wie das heißt. Wenn ein Agent mit Ihrem API-Schlüssel, Ihrem OAuth-Token, Ihren Zugangsdaten, Ihrem Konto, Ihrer Domain handelt — sind Sie der Auftraggeber. Der Agent handelt in Ihrem Namen. Die rechtlichen Rahmenwerke holen diese Realität gerade ein. In Kalifornien verbietet AB 316 (Civil Code §1714.46), in Kraft seit dem 1. Januar 2026, Beklagten, die ein KI-System „entwickelt, modifiziert oder genutzt“ haben, die Verteidigung, die KI habe den Schaden autonom verursacht. In der EU dehnt die neue Produkthaftungsrichtlinie, die die Mitgliedstaaten bis zum 9. Dezember 2026 in nationales Recht umsetzen müssen, die verschuldensunabhängige Haftung auf KI-Systeme als „Produkte“ aus, mit widerlegbaren Vermutungen, die die Beweislast für Geschädigte senken. Die Richtung ist konsistent: Verantwortung folgt der Autorisierung. Wer einsetzt, der haftet.

Das ist kein Gedankenexperiment. Browser-Agenten, Coding-Agenten, Spreadsheet-Agenten, MCP-vernetzte Tool-Agenten, sie laufen gerade jetzt produktiv in kleinen und mittleren Unternehmen. Die meisten dieser Unternehmen haben nicht ernsthaft darüber nachgedacht, was das bedeutet.

Die Verifikations-Asymmetrie

Solange ein LLM nur spricht, ist Verifikation billig. Sie lesen den Output. Sie erwischen den Fehler oder eben nicht, aber die Kosten eines übersehenen Fehlers sind begrenzt — meist verlorene Zeit, gelegentlich eine schlechte Entscheidung auf Basis schlechter Information.

Wenn ein LLM handelt, muss die Verifikation *vor* die Handlung wandern. Sobald eine Zustandsänderung commited ist, pflanzt sie sich fort. Manche lässt sich rückgängig machen. Manche nicht.

Eine grobe Taxonomie, die man im Kopf behalten sollte:

Reversibel: Entwürfe, interne Abfragen, Lesezugriffe, Sandbox-Schreibvorgänge. Kosten einer Fehlhandlung ungefähr null.
Schwer reversibel: versendete E-Mails, gepostete Nachrichten, Kalendereinladungen, die meisten ausgehenden API-Calls. Sie können sich entschuldigen, zurückrufen, nachfassen — aber der Empfänger hat es schon gesehen.
Faktisch irreversibel: Löschungen ohne Backup, Finanztransaktionen, akzeptierte AGB, öffentliche Aussagen, alles, worauf ein anderer Mensch oder ein anderes System bereits reagiert hat.

Der Reflex aus 2025: „erst laufen lassen, dann lesen, was rauskam“, überlebt den Kontakt mit der zweiten und dritten Kategorie nicht. Wenn Sie es lesen, ist die Handlung schon passiert.

Das ist der strukturelle Grund, warum „dem Agenten mehr vertrauen“ der falsche Ratschlag für 2026 Agentic AI ist. Die Frage ist nicht *wie viel* Vertrauen. Die Frage ist *wo* im Ablauf Vertrauen verifiziert wird — und bei irreversiblen Handlungen muss das vor der Handlung passieren, nicht danach.

Der neue Guardrail-Stack

Was tatsächlich funktioniert, etwa in der Reihenfolge, in der die meisten KMU es einführen sollten, folgt etablierter DevSecOps-Praxis, deren kanonisches Beispiel der Microsoft Security Development Lifecycle (SDL) ist. Keine dieser Ideen ist in der IT neu; neu ist, dass KMU jetzt Systeme betreiben, die solche Maßnahmen verlangen.

Scope Limits: Was der Agent *nicht* anfassen kann, ist wichtiger als das, was er kann. Wenden Sie das Least-Privilege-Prinzip aus der Informationssicherheit an: nur lesende Zugangsdaten, wo Lesen genügt; eingeschränkte Ordner und Kanäle; OAuth-Scopes, die auf die tatsächliche Aufgabe zugeschnitten sind. Ein Agent, der das ganze gemeinsame Laufwerk löschen *kann*, wird es früher oder später versuchen, bei genug Schritten und einem missverstandenen Prompt.
Kosten- und Ressourcendeckel: Eine entgleiste ReAct-Schleife oder ein fehlfunktionierender Agent kann dieselbe Aufgabe endlos wiederholen und Ihr Budget still und leise verbrennen — API-Kosten, Compute, Drittanbieter-Gebühren. Harte Grenzen pro Schritt, pro Sitzung und pro Tag lassen Agenten sicher scheitern statt teuer. Das ist das agentische Äquivalent eines Sicherungsautomaten.
Bestätigungs-Workflows für irreversible Handlungen: Alles, was in die dritte Kategorie der Reversibilitäts-Taxonomie fällt, sollte einen expliziten menschlichen Freigabeschritt erfordern — idealerweise mit einer klaren Zusammenfassung dessen, was gleich passiert und was nicht rückgängig zu machen ist.
Zwei-Stufen-Abläufe, der Agent bereitet die Aktion vor, ein Mensch bestätigt, sind unmodern, aber genau der Grund, warum Luftfahrt und Chirurgie noch funktionieren.
Dry-Run als Standard: Bei unbekannten Aufgaben lassen Sie den Agenten beschreiben, was er tun *würde*, bevor er es tut. Das fängt die meisten Missverständnisse kostenlos ab. Es legt auch versteckte Annahmen offen, die der Prompt nicht spezifiziert hat.
Reibung nach Reversibilität abgestuft: Wenden Sie nicht denselben Freigabe-Workflow auf einen Mail-Entwurf an wie auf eine Überweisung. Stimmen Sie die Reibung auf den Schadensradius ab. Sonst wird die Reibung entweder abgeschaltet, weil die meisten Aktionen niedrige Stakes haben, oder die Leute brennen aus, weil sie alles freigeben.
Audit-Trail: Logs, Versionskontrolle, unveränderliche Historie, datierte Snapshots. Die Frage ist nicht, *ob* etwas schiefläuft, sondern *wann es bemerkt wird*. Drei Minuten Fehlverhalten eines Agenten sind heilbar. Drei Wochen sind ein Projekt. Drei Monate sind ein Aufsichtsfall.
Sandbox, wo es geht: Testkonten, Staging-Umgebungen, getrennte Workspaces, gescopete Container. Die Kosten einer Sandbox sind fast immer niedriger als die Kosten *einer* falschen Aktion in der Produktion.

Das Neue an 2026 Agentic AI sind nicht diese Praktiken. Neu ist, dass kleine und mittlere Unternehmen jetzt Systeme betreiben, die sie verlangen. Ohne die Infrastruktur-Teams, die in größeren Organisationen drumherum gewachsen sind.

Was das für Wissensarbeiter und KMU bedeutet

Die Fähigkeit, die gute Nutzer agentischer KI 2026 auszeichnet, ist nicht Prompting. Es ist Autorisierungs-Design: zu entscheiden, was der Agent unter welchen Bedingungen mit welcher Verifikation in wessen Namen tun darf.

Vier Fragen, bevor Sie irgendeine Aufgabe an einen Agenten delegieren:

1. Was ist das schlimmstmögliche Ergebnis, wenn das schiefgeht?
2. Ist es reversibel? In welchem Zeitrahmen? Zu welchen Kosten?
3. Wessen Name steht unter der Handlung, wenn sie passiert?
4. Wie hoch ist meine Erkennungslatenz — wie lange dauert es, bis ich merke, dass etwas falsch läuft?

Für kleine und mittlere Unternehmen ist das Wissensmanagement-Arbeit, nicht IT-Arbeit. Der Agent operiert auf Ihren Prozessen, Ihren Kundenbeziehungen, Ihren Daten, Ihrem Ruf. Die Architekturentscheidungen, was der Agent anfassen darf, wer was bestätigt, wo das Audit-Trail liegt, sind Entscheidungen darüber, wie Ihr Unternehmen funktioniert, nicht nur darüber, wie Ihre Tools konfiguriert sind.

Wenn Ihr Unternehmen agentische KI ausrollt, ohne explizite Antworten auf diese vier Fragen pro Anwendungsfall zu haben, dann setzen Sie keine Technologie ein. Sie setzen blind auf ein Verhalten, das Sie nicht charakterisiert haben.

Der rote Faden Ehrlichkeit

Im letzten Artikel habe ich argumentiert, dass klügere Modelle nicht ehrlicher sind. Das hieß: Solange das Modell nur spricht, ist Verifikation Ihre Aufgabe. Agentische Modelle ziehen das Argument weiter: Verifikation kann nicht mehr nachträglich passieren, weil die Handlung schon passiert ist.

Damit wird strukturelle Verifikation, der Guardrail-Stack oben, zum neuen Ehrlichkeitsmechanismus. Nicht, weil das Modell vertrauenswürdig geworden ist, sondern weil Sie eine Umgebung gebaut haben, in der seine unzuverlässigen Momente weniger kosten, als seine zuverlässigen einbringen.

Das ist es, was kalibriertes Vertrauen in der Praxis bedeutet. Es heißt nicht „mehr vertrauen“. Es heißt „ein System bauen, in dem die Konsequenzen fehlgeleiteten Vertrauens begrenzt, beobachtbar und behebbar sind.“

Zum Schluss

Die KI ist nicht Ihr Partner. Sie ist Ihr hochfähiger Beauftragter. Sie sind nach wie vor der Auftraggeber — und 2026 fängt dieser Unterschied an, auf eine Weise wichtig zu werden, die zu erklären die Anbieter nicht eilig haben.

Autorisieren Sie entsprechend.

Mai 11, 2026

Das Drei-Regeln-Framework #5, in der Cybersecurity: Blue, Red und Purple Team

Das Drei-Regeln-Framework in der Cybersecurity: Blue, Red und Purple Team

Dies ist der fünfte Beitrag einer Serie über das Drei-Regeln-Framework — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen. Das Framework wurde bisher auf Dokumentextraktion, Worldbuilding, Szenarioplanung und Implementierung im Organisationskontext angewandt.

Dieser Beitrag wendet es auf eine Domäne an, in der die Einsätze so hoch sind wie kaum anderswo: Cybersecurity.

Das strukturelle Problem ist bekannt. KI generiert selbstbewusst klingende Sicherheitsbewertungen, die verifizierte Befunde mit Inferenzen und Annahmen vermischen — und niemand kann unterscheiden, was was ist. Ein Schwachstellen-Scan-Ergebnis steht neben einer architektonischen Inferenz neben einer ungetesteten Annahme über Netzwerksegmentierung, alles mit der gleichen Zuversicht präsentiert. Der Output sieht gründlich aus. Manches ist fundiert. Manches wurde erfunden, damit das Narrativ zusammenhält.

Bei der Szenarioplanung kostet das Planungsressourcen. In der Cybersecurity ist es ein Breach, der darauf wartet zu passieren.

Warum die Cybersecurity besonders anfällig ist

Ein Survey-Paper von 2025 über Halluzinationen in KI-gestützten Cybersecurity-Systemen identifiziert das Kernrisiko: KI-Modelle, die auf Sprachfluss optimiert sind, können sichere Aktivitäten fälschlich als Bedrohung einstufen oder tatsächliche Gefahren übersehen — und tun beides im selben selbstbewussten Ton, unabhängig davon, ob ihre Bewertung evidenzbasiert ist. Das Design-Ziel Sprachfluss vor Genauigkeit verstärkt das Problem: Modelle produzieren hochkonfidente Aussagen auch ohne faktische Fundierung.

Die OWASP Foundation listet KI-Halluzination in ihrer Ausgabe 2025 unter den Top-Risiken für LLM-gestützte Sicherheitstools. Das Problem sind nicht isolierte False Positives oder False Negatives — es ist die Vermischung von realen Befunden und fabrizierten Bewertungen in einem einzigen Output, den Menschen dann als gleichmäßig zuverlässig behandeln.

Die Lücken-Labels für Cybersecurity

Zwei Lücken-Labels gelten teamübergreifend:

[SICHTBARKEITSLÜCKE] — etwas, das das Team nicht sehen kann oder nicht instrumentiert hat: unüberwachte Netzwerksegmente, fehlende Log-Quellen, Schatten-IT, Cloud-Services ohne Telemetrie
[VALIDIERUNGSLÜCKE] — eine Kontrolle oder Erkennungsregel, die auf dem Papier oder in der Konfiguration existiert, aber nie gegen tatsächliches Angriffsverhalten getestet wurde

Die Unterscheidung ist entscheidend. Eine Sichtbarkeitslücke bedeutet: Sie haben die Daten nicht. Eine Validierungslücke bedeutet: Sie haben die Daten (oder glauben es), aber haben nicht bewiesen, dass die Erkennung tatsächlich funktioniert. Beides ist gefährlich; es erfordert unterschiedliche Maßnahmen.

Blue Team: Verteidigung

Die Wahrheitsquelle des Blue Teams ist: was über die Verteidigungslage durch direkte Evidenz bestätigt wurde — nicht was die Policy sagt, nicht was der Hersteller verspricht, nicht was wahr sein sollte.

Forschung von Mitiga legt nahe, dass traditionelle SIEMs im Durchschnitt nur etwa 21 % der MITRE ATT&CK-Techniken erkennen — das heißt, bei rund vier von fünf Technikkategorien gibt es keine validierte Erkennungsabdeckung. Dennoch berichten viele Organisationen deutlich höhere Coverage-Zahlen, weil sie konfigurierte Regeln zählen statt validierte Erkennungen. Die Kluft zwischen „Wir haben eine Regel dafür“ und „Diese Regel hat bei einem realen Angriff korrekt ausgelöst“ ist genau die Kluft, die das Framework offenlegt.

AttackIQs Analyse vom März 2026 hat es treffend formuliert: Coverage ist nicht statisch, Umgebungen ändern sich, und eine Erkennung, die letzten Monat funktionierte, kann diesen Monat still kaputtgegangen sein. Ein Teilnehmer eines Webinars brachte es auf den Punkt: Erkennungen zu haben bedeutet nichts, wenn sie kein Signal produzieren, auf das das Team reagieren kann.

Blue Team Quellen-Tags

(VERIFIZIERT) — bestätigt durch direkte Evidenz: getestete Kontrolle, beobachteter Log-Eintrag, validierte Konfiguration, Scan-Ergebnis mit Zeitstempel
(POLICY-DOKUMENTIERT) — in Policy, Konfigurationsleitfäden oder Herstellerdokumentation beschrieben, aber nicht unabhängig validiert
(INFERIERT) — aus indirekten Indikatoren abgeleitet. „Keine Alerts in 90 Tagen“ heißt nicht „keine Einbrüche in 90 Tagen“ — es könnte heißen, die Erkennung funktioniert nicht

Blue Team Prompt

Du bist ein defensiver Sicherheitsanalyst, der unsere Umgebung überprüft. Tagge jede Sicherheitsaussage mit ihrer Evidenzbasis:

• (VERIFIZIERT) — bestätigt durch direktes Testen, Log-Evidenz oder Scan-Ergebnisse. Nenne die konkrete Evidenz.

• (POLICY-DOKUMENTIERT) — in Policy oder Konfigurationsleitfäden dokumentiert, aber nicht unabhängig validiert. Beschreibe, wie eine Validierung aussehen würde.

• (INFERIERT) — aus indirekten Indikatoren abgeleitet. Nenne die Inferenzkette und was sie ungültig machen könnte.

• Wenn du eine Kontrolle oder einen Abdeckungsbereich identifizierst, der nicht getestet oder instrumentiert wurde, markiere ihn als [SICHTBARKEITSLÜCKE] oder [VALIDIERUNGSLÜCKE] mit kurzer Erklärung.

• Ein falsches Sicherheitsgefühl ist gefährlicher als eine bekannte Lücke. Eine bekannte Lücke wird budgetiert. Falsches Vertrauen wird gehackt. Im Zweifel markiere die Lücke.

Blue Team Beispiel-Output

Kontrolle	Status	Quelle	Anmerkung
MFA auf VPN	Aktiviert	POLICY-DOKUMENTIERT	Azure AD Conditional Access Policy verlangt MFA. [VALIDIERUNGSLÜCKE: kein Pentest hat Durchsetzung auf dem Cisco AnyConnect Endpoint verifiziert]
EDR-Abdeckung	94 % der Endpoints	VERIFIZIERT	CrowdStrike Dashboard, abgerufen April 2026
Lateral-Movement-Erkennung	Aktiv	INFERIERT	SIEM hat Regeln für Pass-the-Hash. Kein Purple-Team-Exercise hat getestet, ob sie auslösen. [VALIDIERUNGSLÜCKE]
DNS-Exfiltration-Erkennung	—	SICHTBARKEITSLÜCKE	Kein DNS-Logging auf internen Resolvern konfiguriert. DNS-Tunneling nicht erkennbar.

Red Team: Offensive

Die Wahrheitsquelle des Red Teams ist: was durch tatsächliche Exploitation demonstriert wurde — nicht was verwundbar sein sollte, nicht was Shodan zeigt, nicht was die CVE-Datenbank nahelegt.

Red Team Quellen-Tags

(BESTÄTIGT) — Schwachstelle ausgenutzt, Zugang erreicht, Daten exfiltriert — mit Evidenz (Screenshot, Hash, Artefakt, Session-Log)
(INDIZIERT) — starke Indikatoren für Verwundbarkeit, aber Exploitation noch nicht versucht: Versions-Fingerprint passt zu bekanntem CVE, Default-Credentials erkannt aber nicht getestet
(HYPOTHETISIERT) — Angriffspfad existiert theoretisch auf Basis der Architekturanalyse, aber ungetestet. Nennt die Annahmen, von denen der Pfad abhängt

Red Team Prompt

Du bist ein Red-Team-Operator, der potenzielle Angriffspfade analysiert. Tagge jedes Finding oder jeden Angriffspfad:

• (BESTÄTIGT) — Schwachstelle ausgenutzt und Zugang demonstriert. Nenne die spezifische Evidenz (Tool-Output, Artefakt, Hash).

• (INDIZIERT) — starke Indikatoren deuten auf Verwundbarkeit hin, aber Exploitation wurde nicht versucht. Nenne die Indikatoren.

• (HYPOTHETISIERT) — Angriffspfad ist theoretisch plausibel basierend auf Architektur, aber ungetestet. Nenne die Annahmen, von denen der Pfad abhängt.

• Markiere ungetestete Angriffsflächen als [UNGETESTETE FLÄCHE: Beschreibung].

• Markiere angenommene Netzwerkpfade oder Vertrauensbeziehungen als [ANGENOMMENER PFAD: welche Konnektivität oder welches Vertrauen wird angenommen].

• Eine hypothetisierte Schwachstelle, die als bestätigt gemeldet wird, verschwendet Verteidigungsressourcen auf die falsche Priorität. Wenn nicht getestet, sag es.

Red Team Beispiel-Output

Finding	Schweregrad	Quelle	Detail
Jenkins RCE (CVE-2024-XXXX)	Kritisch	BESTÄTIGT	Exploit via Metasploit, Reverse Shell erhalten. Artefakt: Session-Log ID 47
Lateral Movement Jenkins → DB	Hoch	HYPOTHETISIERT	Jenkins auf VLAN 10, DB auf VLAN 20. [ANGENOMMENER PFAD: nimmt an, dass keine ACL zwischen VLANs — nicht validiert]
S3-Bucket öffentlicher Zugriff	Mittel	INDIZIERT	Bucket-Policy erlaubt s3:GetObject für *. [UNGETESTETE FLÄCHE: kein Versuch, sensitive Inhalte herunterzuladen]
Domain-Admin via Kerberoasting	Hoch	INDIZIERT	SPN auf Service-Account mit schwacher Verschlüsselung (RC4) gefunden. Hash noch nicht geknackt.

Purple Team: Kollaboration

Purple Teaming ist, wo das Framework seine größte Kraft entfaltet, weil der gesamte Zweck darin besteht, offensive Fähigkeiten gegen defensive Fähigkeiten zu mappen — und der Raum dazwischen genau das ist, was die Lücken-Labels sichtbar machen.

Purple Team Quellen-Tags

(ERKANNT) — Blue Team hat die Angriffstechnik erfolgreich erkannt und alarmiert. Nennt den spezifischen Alert, die Regel oder SIEM-Korrelation
(TEILWEISE ERKANNT) — Indikatoren wurden geloggt, aber nicht zu einem handlungsfähigen Alert korreliert. Die Rohdaten existieren; die Erkennungslogik nicht
(VERFEHLT) — Angriffstechnik war erfolgreich ohne Erkennung auszulösen. Höchstprioritäts-Finding
(NICHT GETESTET) — Diese MITRE ATT&CK-Technik wurde in diesem Engagement nicht ausgeübt. Erkennungsfähigkeit kann nicht bewertet werden

Purple Team Prompt

Du bist ein Purple-Team-Analyst, der Angriffsergebnisse gegen Erkennungsfähigkeiten mappt. Tagge für jede getestete Technik das Ergebnis:

• (ERKANNT) — Blue Team hat erkannt und alarmiert. Nenne die spezifische Erkennungsregel, den Alert oder die Korrelation.

• (TEILWEISE ERKANNT) — Indikatoren wurden geloggt, aber nicht zu einem Alert korreliert. Nenne, was geloggt wurde und welche Erkennungslogik fehlt.

• (VERFEHLT) — Angriff war erfolgreich ohne Erkennung. Dies ist das höchstprioritäre Finding.

• (NICHT GETESTET) — Technik wurde in diesem Engagement nicht ausgeübt. Bewerte nicht die Erkennungsfähigkeit für ungetestete Techniken.

• Für jedes VERFEHLT-Finding markiere die Ursache: [SICHTBARKEITSLÜCKE] (Daten nicht erhoben) oder [ERKENNUNGSLÜCKE] (Daten erhoben, aber keine Regel oder Korrelation vorhanden).

• Nimm nicht an, dass eine Kontrolle funktioniert, weil sie existiert. Eine SIEM-Regel, die nie gegen einen realen Angriff ausgelöst hat, ist eine [VALIDIERUNGSLÜCKE], nicht (ERKANNT).

• Eine ungetestete Technik, die als erkannt gemeldet wird, gibt falsches Vertrauen. Wenn nicht getestet, sag NICHT GETESTET — niemals extrapolieren.

Purple Team Beispiel-Output

MITRE-Technik	Red-Ergebnis	Blue-Ergebnis	Quelle	Maßnahme
T1566.001 Spearphishing	Payload zugestellt	Alert in 12 Min. ausgelöst	ERKANNT	Review: 12 Min. Mean-Time-to-Detect akzeptabel?
T1003.001 LSASS-Dump	Credentials extrahiert	Kein Alert	VERFEHLT	[SICHTBARKEITSLÜCKE: kein LSASS-Zugriffsmonitoring konfiguriert]
T1071.001 Web C2	C2-Kanal etabliert	Proxy hat Traffic geloggt, kein Alert	TEILWEISE ERKANNT	[ERKENNUNGSLÜCKE: Beaconing-Pattern-Erkennung benötigt]
T1053.005 Scheduled Task	—	—	NICHT GETESTET	[VALIDIERUNGSLÜCKE: Persistenz-Techniken nicht im Scope]

Die Cybersecurity-Version von Regel 2

Die „Raten bestrafen“-Regel bekommt im Sicherheitskontext besondere Dringlichkeit. Bei der Dokumentextraktion verschwendet eine falsche Antwort Zeit. In der Cybersecurity kumulieren die Kosten anders:

Ein (HYPOTHETISIERT)-Finding, das als (BESTÄTIGT) gemeldet wird → Verteidigungsressourcen gehen an die falsche Stelle
Eine (POLICY-DOKUMENTIERT)-Kontrolle, die als (VERIFIZIERT) gemeldet wird → tatsächliche Exposition bleibt unbehandelt
Eine (NICHT GETESTET)-Technik, die als (ERKANNT) gemeldet wird → das Team glaubt, geschützt zu sein, wo es blind ist
Eine [SICHTBARKEITSLÜCKE], die ungetaggt bleibt → der Angreifer operiert im einzigen Bereich, den niemand beobachtet

Die Cybersecurity-Formulierung von Regel 2 ist:

Falsches Vertrauen in eine Sicherheitskontrolle ist gefährlicher als eine bekannte Lücke. Eine bekannte Lücke wird budgetiert. Falsches Vertrauen wird gehackt.

Das ist nicht hypothetisch. Das Muster „angenommene Abdeckung, tatsächliche Blindheit“ ist genau das, was große Breaches ausnutzen. Angreifer zielen nicht auf Ihre stärksten Verteidigungen — sie finden die Bereiche, in denen Sie glauben, abgedeckt zu sein, es aber nicht sind. Jede [VALIDIERUNGSLÜCKE], die das Framework offenlegt, ist ein Ort, den der Gegner sondieren würde.

Das teamübergreifende Muster

Team	Wahrheitsquelle	Quellen-Tags	Lücken-Labels	Regel-2-Formulierung
Blue	Bestätigte Verteidigungslage	VERIFIZIERT / POLICY-DOKUMENTIERT / INFERIERT	SICHTBARKEITSLÜCKE / VALIDIERUNGSLÜCKE	Eine policy-dokumentierte Kontrolle, die als verifiziert behandelt wird, ist eine offene Tür
Red	Demonstrierte Exploitation	BESTÄTIGT / INDIZIERT / HYPOTHETISIERT	UNGETESTETE FLÄCHE / ANGENOMMENER PFAD	Ein hypothetisierter Pfad, der als bestätigt behandelt wird, verschwendet Verteidigungsressourcen
Purple	Validierte Erkennungsfähigkeit	ERKANNT / TEILWEISE ERKANNT / VERFEHLT / NICHT GETESTET	SICHTBARKEITSLÜCKE / ERKENNUNGSLÜCKE / VALIDIERUNGSLÜCKE	Eine ungetestete Technik, die als erkannt behandelt wird, erzeugt falsches Vertrauen

Die Struktur ist in jedem Fall gleich: Unterscheide zwischen dem, was bewiesen wurde, und dem, was angenommen wurde, mache die Grenze sichtbar, und behandle falsches Vertrauen als schlimmer als eingestandene Unsicherheit.

Oder, in Begriffen, die jeder Sicherheitsprofi sofort versteht: Das Framework verwandelt „angenommene Abdeckung“ in „validierte Abdeckung“ — und macht alles dazwischen explizit.

Integration mit MITRE ATT&CK

Das Drei-Regeln-Framework mappt natürlich auf MITRE ATT&CK-Assessments. Die ATT&CK-Matrix liefert das Was — welche Techniken existieren. Das Framework liefert das Wie sicher — für welche Techniken Sie tatsächlich die Abdeckung validiert haben.

Eine Standard-ATT&CK-Heatmap zeigt Rot (keine Abdeckung) und Grün (Abdeckung). Das Drei-Regeln-Framework fügt die entscheidende Zwischenschicht hinzu: Grün, das validiert wurde, vs. Grün, das angenommen wurde. Wie AttackIQ feststellt, kann die Kluft zwischen einem grünen Feld und tatsächlicher Verteidigungsfähigkeit enorm sein. Abdeckung für eine Prozedur ist nicht Abdeckung für eine Technik. Eine Erkennung, die letzten Monat funktionierte, kann diesen Monat still kaputtgegangen sein.

Die Drei-Regeln-Tags zu Ihrem ATT&CK-Coverage-Assessment hinzuzufügen verwandelt es von einer Deployment-Karte in eine Konfidenz-Karte — und Konfidenz-Karten sind die Grundlage, auf der Sicherheitsentscheidungen basieren sollten.

Quellen und weiterführende Lektüre

CAEE Journal (April 2025): „The Paradigm of Hallucinations in AI-driven Cybersecurity Systems.“ Taxonomie der Halluzinations-Auswirkungen auf Cybersecurity-Tools.
AttackIQ (März 2026): „What Does MITRE ATT&CK Coverage Really Mean?“ Über die Kluft zwischen behaupteter Abdeckung und validierter Erkennung.
Mitiga (2025): „Measurements That Matter.“ Berichtet ~21 % durchschnittliche ATT&CK-Erkennungsrate für traditionelle SIEMs.
Kroll Cyber Risk (2023): „MITRE ATT&CK Detection Maturity Assessment Guide.“ Template-basierter Ansatz zur Identifikation von Abdeckungslücken.
OWASP / Hacken (2025): „LLM Security Frameworks: A CISO’s Guide.“ Zu NIST AI RMF, ISO 42001 und Halluzinations-Monitoring.
MITRE ATT&CK: attack.mitre.org. Die Wissensbasis für Angreifer-Taktiken und -Techniken.
Vorherige Beiträge in dieser Serie:
Beitrag 1: ChatGPT und Claude wurden schlauer. Nicht ehrlicher.
Beitrag 2: Von der Vertragsanalyse zur Alternate History
Beitrag 3: Das Drei-Regeln-Framework für Szenarioplanung
Beitrag 4: Das Framework umsetzen: Kalibrierung, Governance und Trade-offs

April 20, 2026

3 Prompt AI Series #4: Kalibrierung, Governance und Trade-offs

Das Drei-Regeln-Framework umsetzen: Kalibrierung, Governance und Trade-offs

Der vorherige Beitrag dieser Serie hat ein allgemeines Framework für KI-gestützte Szenarioplanung vorgestellt: Leerlassen erzwingen, Raten bestrafen, Quelle zeigen. Das Framework produziert Output, in dem jede Behauptung als VERIFIZIERT, ANGENOMMEN oder PROJIZIERT getaggt ist und Lücken explizit markiert statt stillschweigend gefüllt werden.

Das war das Was. Dieser Beitrag handelt vom Wie — drei praktische Herausforderungen, denen jeder begegnet, der das Framework umsetzt:

Kalibrierung: Sie haben etwas als ANGENOMMEN getaggt. Wie prüfen Sie, ob die Annahme vernünftig ist?
Governance: Wie setzen Organisationen Tagging in tatsächlichen Workflows durch — nicht nur im Prompt einer einzelnen Person?
Trade-offs: Erzeugt das ganze Tagging nicht kognitive Überlastung? Wie lesen Nicht-Experten ein Dokument voller Provenance-Labels?

1. Annahmen kalibrieren: Von „getaggt“ zu „geprüft“

Eine Annahme zu taggen ist notwendig, aber nicht hinreichend. (ANGENOMMEN: Markt wächst 15 % jährlich) ist besser als ein unmarkiertes 15 %, das in die Projektion eingebaut ist — aber es sagt Ihnen nicht, ob 15 % vertretbar sind. Das Framework legt Annahmen offen; Kalibrierung prüft sie.

Vier Kalibrierungsmethoden funktionieren gut mit dem getaggten Output:

Reference Class Forecasting: Die Außenperspektive

Daniel Kahnemans und Amos Tverskys Unterscheidung zwischen der „Innenperspektive“ (Planung basierend auf den Spezifika dieses Projekts) und der „Außenperspektive“ (was bei vergleichbaren Projekten historisch passiert ist) ist das nützlichste Einzelkonzept zur Kalibrierung von Annahmen. Die Planungsfehler-Tendenz — systematisches Unterschätzen von Kosten und Zeitplänen — ist so gut dokumentiert, dass die American Planning Association Reference Class Forecasting 2005 offiziell empfohlen hat.

In der Praxis bedeutet das: Für jeden ANGENOMMEN-Tag fragen Sie das Modell (oder sich selbst), 3–5 vergleichbare Situationen und deren tatsächliche Ergebnisse zu identifizieren. Wenn Sie 15 % Wachstum annehmen, welches Wachstum haben ähnliche Produkte in ähnlichen Märkten tatsächlich erzielt? Wenn Sie einen 6-monatigen Genehmigungszeitraum annehmen, wie lange haben vergleichbare Genehmigungen tatsächlich gedauert?

Sie können das sogar in den Prompt einbauen:

Füge für jeden ANGENOMMEN-Tag eine „Kalibrierung“ hinzu: Identifiziere 2–3 vergleichbare historische Fälle und deren tatsächliche Ergebnisse. Falls keine vergleichbaren Daten existieren, vermerke [KEINE REFERENZKLASSE].

Sensitivitätstest: Was bricht, wenn das falsch ist?

Nicht alle Annahmen sind gleich wichtig. RANDs Assumption-Based Planning nennt das „Kritikalität“ — eine Annahme ist kritisch, wenn ihr Scheitern grundlegende Änderungen am Plan erfordern würde. In der Praxis heißt das testen: Was passiert mit der Schlussfolgerung, wenn diese Annahme um 50 % danebenliegt? Wenn die Antwort „nicht viel“ ist, hat die Annahme niedrige Priorität. Wenn die Antwort „der gesamte Business Case bricht zusammen“ ist, ist das Ihr Validierungsziel mit höchster Priorität.

Das getaggte Format ermöglicht das direkt. Sie können das Modell fragen:

Nimm die drei ANGENOMMEN-Positionen mit dem höchsten Einfluss auf die Endprojektion. Berechne für jede die Projektion neu mit der Annahme bei 50 % des angegebenen Werts und bei 150 %. Zeige mir, für welche Annahmen die Schlussfolgerung am empfindlichsten ist.

Pre-Mortem: Stell dir vor, es ist gescheitert

Gary Kleins Pre-Mortem-Technik kehrt die Frage um: Statt „Wird das funktionieren?“ zu fragen, startet man mit „Es ist gescheitert — warum?“ Das ist besonders wirksam für ANGENOMMEN-Tags, weil es Fehlermodi sichtbar macht, die Optimismus verbirgt:

Nimm an, dieses Szenario ist nach 12 Monaten gescheitert. Welche der ANGENOMMEN-Positionen waren am wahrscheinlichsten der Punkt des Scheiterns? Beschreibe für jede ein plausibles Narrativ, wie diese Annahme zusammengebrochen ist.

Zeitlicher Verfall: Wann verfällt die Annahme?

Annahmen haben ein Haltbarkeitsdatum. Eine Marktgrößenschätzung aus einem Gartner-Bericht von 2025 ist 2026 noch vertretbar. Eine Wettbewerbs-Landschafts-Annahme von 2024 könnte bereits falsch sein. Eine zeitliche Dimension zu ANGENOMMEN-Tags hinzuzufügen hilft:

Füge für jeden ANGENOMMEN-Tag eine Verfallsschätzung hinzu: Wie lange ist diese Annahme voraussichtlich gültig? Markiere alles, was älter als 12 Monate ist oder auf Daten vor 2025 basiert, als [VERALTETE ANNAHME].

2. Governance: Das Framework über eine einzelne Person hinaus verankern

Das Framework funktioniert gut, wenn eine Person es in einer Chat-Session nutzt. Die Governance-Frage ist: Wie übersteht es den Kontakt mit einer Organisation — mehrere Personen, mehrere KI-Tools, mehrere Dokumente, über Monate?

Das Problem: Tags gehen in der Übersetzung verloren

Was typischerweise passiert: Ein Analyst erstellt ein schön getaggtes Szenario. Er kopiert es in eine Folienpräsentation. Die Tags verschwinden. Ein Manager liest die Folien, sieht „Umsatz Jahr 1: 310K €“ ohne jeden Hinweis, dass die Zahl PROJIZIERT ist aus zwei nicht validierten ANGENOMMEN-Inputs. Das Geisterszenario lebt wieder.

Das ist ein Wissensmanagement-Problem, kein KI-Problem. Und es hat Wissensmanagement-Lösungen.

Stufe 1: Template-Pflicht

Der einfachste Governance-Mechanismus ist ein Template. Wenn Ihre Organisation KI für Szenarioplanung nutzt, sollte das Output-Template Provenance-Spalten fest eingebaut haben. Nicht optional, nicht „bei Bedarf hinzufügen“ — strukturell erforderlich. Ein Szenario-Dokument ohne Quellen-Tags sollte genauso behandelt werden wie ein Finanzbericht ohne Belege: unvollständig.

Konkret: Erstellen Sie ein Standardtabellenformat für alle KI-gestützten Szenario-Outputs:

Variable	Wert	Quelle	Basis / Falls falsch	Geprüft von	Datum
(Alle KI-generierten Szenario-Outputs müssen dieses Format verwenden)

Die Spalten „Geprüft von“ und „Datum“ sind die Governance-Ergänzungen. Sie machen aus einer Prompt-Technik eine Prüfspur. Jemand muss jede ANGENOMMEN-Position abzeichnen, bevor sie in die Planung eingeht.

Stufe 2: Review-Workflow

Für Organisationen mit strukturierteren Prozessen integrieren Sie das Tagging in den Review-Zyklus:

Schritt 1 — Generierung: KI produziert getaggten Output mit dem Drei-Regeln-Prompt.
Schritt 2 — Annahmen-Review: Ein Fachexperte prüft alle ANGENOMMEN- und PROJIZIERT-Positionen. Jede bekommt eine von drei Dispositionen: bestätigt (wird zu VERIFIZIERT umklassifiziert), hinterfragt (zur Kalibrierung geschickt) oder mit Risiko akzeptiert (bleibt als ANGENOMMEN mit dokumentierter Begründung).
Schritt 3 — Lücken-Triage: Alle DATENLÜCKE- und ANNAHMELÜCKE-Positionen werden triagiert: auflösbar (jemandem zuweisen, die Daten zu finden), irreduzibel (die Unsicherheit ist inhärent — dokumentieren und drum herumplanen) oder zurückgestellt (für diese Entscheidungsphase nicht nötig).
Schritt 4 — Entscheidungspaket: Das finale Dokument trennt „was wir wissen“ (VERIFIZIERT), „was wir glauben“ (ANGENOMMEN, mit Kalibrierungsnotizen) und „was wir nicht wissen“ (verbleibende Lücken). Entscheidungsträger sehen alle drei.

Stufe 3: System-Prompt-Standardisierung

Wenn Ihre Organisation KI teamübergreifend nutzt, standardisieren Sie den System-Prompt. Verlassen Sie sich nicht darauf, dass einzelne Analysten sich daran erinnern, die drei Regeln anzuwenden. Verankern Sie das Framework in jedem KI-Zugangspunkt — ob Claude-Projekt, Custom GPT, API-Wrapper oder n8n-Workflow. Der Prompt wird Infrastruktur, nicht persönliche Praxis.

Die kulturelle Herausforderung

Das schwierigste Governance-Problem ist nicht technisch. Es ist, dass Unsicherheit zu taggen sich nach Schwäche anfühlt. Ein Szenario voller ANGENOMMEN- und DATENLÜCKE-Labels einem Vorstand zu präsentieren wirkt weniger überzeugend als saubere Zahlen. Die organisationale Antwort darauf muss explizit sein: Ein getaggtes Szenario ist kein unvollständiges Szenario — es ist ein ehrliches. Die sauberen Zahlen waren nie sauber; sie haben nur versteckt, wo die Vermutungen waren.

Genau das zeigt Bent Flyvbjergs jahrzehntelange Forschung zu Großprojekt-Fehlschlägen: Die Projekte, die am katastrophalsten das Budget sprengten, waren nicht die mit der meisten Unsicherheit — es waren die, bei denen die Unsicherheit versteckt war. Transparenz über Annahmen ist eine Risikoreduktionsstrategie, kein Eingeständnis von Schwäche.

3. Trade-offs: Wenn Tags zu Rauschen werden

Ein Dokument, in dem jeder Satz ein Provenance-Label trägt, ist anstrengend zu lesen. Das Framework erzeugt realen kognitiven Overhead, und so zu tun als wäre das nicht so, wäre unehrlich. Die Frage ist nicht, ob es Kosten gibt — die gibt es —, sondern wie man sie steuert.

Das Überlastungsproblem

Stellen Sie sich ein 20-Variablen-Szenario vor mit Quellen-Tags, Kalibrierungsnotizen und „Falls falsch“-Anmerkungen an jeder ANGENOMMEN-Position. Für den Analysten, der es erstellt hat, ist das wertvoll — er sieht genau, wohin er seine Aufmerksamkeit richten muss. Für die Führungskraft, die darauf basierend entscheiden muss, ist es eine Wand von Einschränkungen, die das Ergebnis verdeckt.

Beide Perspektiven sind berechtigt. Die Lösung ist nicht, sich für eine zu entscheiden — sondern beide mit verschiedenen Sichten auf dieselben zugrundeliegenden Daten zu bedienen.

Lösung: Geschichtete Darstellung

Das getaggte Szenario sollte in mindestens zwei Schichten existieren:

Schicht 1 — Entscheidungszusammenfassung: Eine Seite. Kernschlüsse, Kernzahlen, Kernrisiken. Keine Tags im laufenden Text. Stattdessen ein einzelner Abschnitt „Konfidenzprofil“ am Ende:

Dieses Szenario stützt sich auf 14 verifizierte Datenpunkte, 6 genannte Annahmen und 3 Projektionen. Zwei Datenlücken sind ungelöst (marktspezifischer CAC, regulatorischer Zeitplan). Die Annahme mit dem höchsten Einfluss auf nachgelagerte Ergebnisse ist [X] — bei 50 % Abweichung verschiebt sich der projizierte Umsatz von 310K € auf 180K €.

Das ist die Führungskräfte-Sicht: Wie viel davon ist solide, wie viel ist unsicher, und was konkret könnte es zum Kippen bringen.

Schicht 2 — Vollständige getaggte Analyse: Der komplette Output mit allen Provenance-Tags, Kalibrierungsnotizen, Lücken-Labels und Sensitivitätsanalyse. Das ist das Arbeitsdokument. Der Analyst nutzt es, der Reviewer zeichnet es ab, und es wird archiviert. Es ist die Prüfspur.

Die Beziehung zwischen den Schichten ist wie die zwischen einem Jahresabschluss und seinen Fußnoten. Der Abschluss zeigt die Zahlen; die Fußnoten zeigen, worauf die Zahlen ruhen. Beides existiert. Verschiedene Leser nutzen verschiedene Schichten.

Wie Nicht-Experten Tags lesen

Für Teams, in denen nicht jeder das Tagging-System beherrscht, vereinfachen Sie die visuelle Sprache. Drei Farben funktionieren besser als drei Akronyme:

VERIFIZIERT → als normaler Text dargestellt (keine besondere Markierung nötig — es ist die Baseline)
ANGENOMMEN → hervorgehoben oder mit einem visuellen Signal markiert (z. B. kursiv, farbige Seitenleiste oder ein einfaches ⚠-Symbol)
DATENLÜCKE → als explizite Leerstelle mit kurzem Hinweis

Die Kernbotschaft, die Nicht-Experten verinnerlichen müssen, ist einfach: Unmarkierter Text ist fundiert; markierter Text ist unsicher; Leerstellen sind ehrlich. Das ist ein Zehn-Sekunden-Briefing. Wer eine Wettervorhersage lesen kann, die „aktuelle Temperatur“ von „Morgenprognose“ unterscheidet, kann ein getaggtes Szenario lesen.

Wann weniger Tags reichen

Nicht jeder Anwendungsfall braucht volle Provenance. Der richtige Tagging-Grad hängt von den Einsätzen ab:

Einsatz	Tagging-Grad	Beispiel
Niedrig	Nur Lücken taggen	Internes Brainstorming, frühe Ideenfindung
Mittel	Lücken + Annahmen taggen	Projektvorschläge, Budget-Entwürfe, Team-Planung
Hoch	Volles Tagging + Kalibrierung	Vorstandspräsentationen, Investitionsentscheidungen, regulatorische Einreichungen

Bei einem lockeren Strategie-Brainstorming VERIFIZIERT/ANGENOMMEN/PROJIZIERT auf jede Zeile zu verlangen, würde den kreativen Fluss töten. Bei einer 2-Millionen-Euro-Investitionsentscheidung für den Vorstand ist alles unter vollem Tagging unverantwortlich. Passen Sie die Intensität des Frameworks an die Konsequenzen der Entscheidung an.

Das Framework-Reifegradmodell

Zusammengenommen können Organisationen, die das Drei-Regeln-Framework einführen, die Umsetzung in drei Stufen denken:

Stufe 1 — Individuelle Praxis: Eine Person nutzt den Drei-Regeln-Prompt in ihren eigenen KI-Gesprächen. Getaggter Output bleibt in ihrem Workspace. Nutzen: persönliche Qualitätskontrolle. Kosten: nahezu null.

Stufe 2 — Team-Standard: Der Prompt wird in gemeinsame KI-Workspaces eingebettet (Claude-Projekte, Custom GPTs). Templates erzwingen das Tabellenformat. Annahmen bekommen informelles Peer-Review. Nutzen: gleichbleibende Qualität im Team. Kosten: Template-Erstellung, kurzes Training.

Stufe 3 — Organisationale Governance: Das Framework wird in Planungsprozesse integriert. Annahmen-Review ist ein formaler Workflow-Schritt. Kalibrierung (Referenzklasse, Sensitivität, Pre-Mortem) ist Standardpraxis. Entscheidungspakete trennen Konfidenzschichten. Nutzen: systematische Risikoreduktion. Kosten: Prozessänderung, kultureller Wandel.

Die meisten Teams sollten bei Stufe 1 beginnen und sofort Ergebnisse sehen. Ob man zu Stufe 2 oder 3 fortschreitet, hängt davon ab, wie viel auf dem Spiel steht, wenn KI-generierte Szenarien reale Entscheidungen informieren. Je höher die Einsätze, desto mehr zahlt sich die Governance-Investition aus.

Limitierungen und bekannte Lücken

Das Drei-Regeln-Framework ist ein Praktiker-Muster, keine peer-reviewte Methode. Es verdient dieselbe kritische Prüfung, die es Nutzer auf KI-Output anwenden lässt. Hier sind die Dinge, die es nicht löst — und die Wege, auf denen es missbraucht werden kann.

1. Nicht empirisch validiert

Es gibt keine kontrollierten Experimente, keine Vorher/Nachher-Fehlerratenmessungen und keine Nutzerstudien hinter diesem Framework. Forschung zeigt, dass Provenance-Tagging und strukturiertes Prompting Halluzinationen reduzieren können — manchmal erheblich —, aber das wurde für spezifische Tagging-Schemata unter kontrollierten Bedingungen nachgewiesen, nicht für das exakte VERIFIZIERT/ANGENOMMEN/PROJIZIERT-Muster, das hier vorgeschlagen wird. Behandeln Sie das Framework als eine Engineering-Heuristik, die in vielen Fällen wahrscheinlich hilft, nicht als etwas, dessen Wirksamkeit Sie ohne eigene Messung voraussetzen können. Wenn Sie es einführen, verfolgen Sie, ob es Ihre Outputs tatsächlich verbessert.

2. Der Prompt ist ein Hebel, nicht der einzige

Das Framework stützt sich stark auf Prompt-Design als primären Mechanismus zur Steuerung des Modellverhaltens. In der Praxis können Prompts Halluzinationen reduzieren, aber Modelle verletzen Anweisungen dennoch unter Druck — besonders wenn Optimierung, Reward-Modelle oder Fine-Tuning auf Sprachfluss und Vollständigkeit drängen. Für Produktionssysteme sollten Prompt-Regeln durch architektonische Kontrollen ergänzt werden: Retrieval-Augmented Generation (RAG) zur Verankerung von Outputs in tatsächlichen Daten, regelbasierte Filter zum Abfangen unbelegter Aussagen, Enthaltungsmechanismen, die die Generierung verweigern, wenn die Konfidenz niedrig ist, und menschliche Review-Workflows. Der Prompt ist der nutzer-zugängliche Hebel. Er ist nicht der einzige, und in Hochrisiko-Deployments ist es fragil, sich allein darauf zu verlassen.

3. VERIFIZIERT bedeutet „belegt“, nicht „unfehlbar“

Die Tag-Hierarchie des Frameworks impliziert einen Konfidenz-Gradienten: VERIFIZIERT = solide, ANGENOMMEN = fragil, PROJIZIERT = abgeleitet. Aber „verifizierte“ Daten können selbst erhebliche Probleme enthalten. Historische Zahlen können Messfehler widerspiegeln. Marktdaten können Anbieter-Annahmen oder Stichprobenverzerrungen kodieren. Finanz-Ist-Werte können nicht-stationär sein — eine Q4-2024-Umsatzzahl kann für Q4-2026-Projektionen in einem Post-Schock-Markt irreführend sein. Das Framework verfolgt Provenance (woher kommt diese Zahl?), nicht Qualität (ist diese Zahl noch ein zuverlässiger Leitfaden?). Nutzer sollten der Versuchung widerstehen, VERIFIZIERT als „gesichert“ zu behandeln. Datenfundamentalismus — die Annahme, dass belegte Daten korrekte Daten sind — ist ein anderer Fehlermodus als Halluzination, kann aber gleichermaßen schlechte Entscheidungen antreiben.

4. Tags legen Inputs offen, nicht strukturelle Validität

Ein Szenario kann perfekt getaggt sein — jede Zahl belegt, jede Annahme markiert, jede Lücke gekennzeichnet — und dennoch fundamental irreführend sein, weil das zugrundeliegende Kausalmodell falsch ist. Kundenabwanderung als preisunabhängig behandeln. Rückkopplungsschleifen zwischen Marketingausgaben und Markenwahrnehmung ignorieren. Lineare Skalierung annehmen, wo die realen Dynamiken nichtlinear sind. Das Framework fängt faktische Halluzinationen (falsche Inputs) ab, aber nicht strukturelle Fehler (falsches Modell davon, wie die Inputs zusammenhängen). Die Kalibrierungsmethoden — Sensitivitätstest, Pre-Mortem — helfen teilweise, testen Annahmen aber isoliert, nicht die Beziehungen zwischen ihnen. ABP- und Szenarioplanungs-Literatur betonen strukturelles Denken und die Exploration alternativer Logiken. Dieses Framework fokussiert auf Tagging und Lückenmarkierung, nicht auf die Qualität des mentalen Modells. Ein gut getaggtes schlechtes Modell ist immer noch ein schlechtes Modell.

5. Labels legen nicht offen, wessen Annahmen kodiert werden

Die Kategorien VERIFIZIERT/ANGENOMMEN/PROJIZIERT können einen Anschein von Objektivität vermitteln, der Machtdynamiken verbirgt. Management kann optimistische Wachstumsziele als ANGENOMMEN kodieren, ohne den politischen Druck hinter der Zahl offenzulegen. Die Marktgrößenschätzung eines Anbieters, als VERIFIZIERT getaggt, kann dessen kommerzielle Interessen einbetten. Die PROJIZIERT-Berechnung eines Analysten kann ein Modell verwenden, das institutionelle Voreingenommenheit zugunsten bestimmter Ergebnisse widerspiegelt. Das Framework verlangt weder vom Modell noch vom Menschen offenzulegen, wessen Annahmen kodiert werden oder wie sie entstanden sind. Die Frage ist nicht nur „ist das belegt oder angenommen?“, sondern „wessen Interessen haben diese Annahme geformt?“ Das Framework beantwortet diese Frage nicht — und zu behaupten, es tue es, wäre eine Form derselben falschen Zuversicht, die es verhindern soll.

6. Zu viele Lücken können Entscheidungen lähmen

Das Framework bestraft Raten explizit und ermutigt das Modell, bei jeder Gelegenheit [DATENLÜCKE] und [ANNAHMELÜCKE] zu markieren. In Hochunsicherheits-Domänen — was die meiste strategische Planung betrifft — kann das zu Outputs führen, die von Lücken und Vorbehalten dominiert werden. ABP-Literatur betont, dass manche Annahmen „für Planungszwecke“ gemacht werden müssen, oder Planung kann nicht fortschreiten. Die Stakes-basierte Skalierungstabelle weiter oben adressiert dies teilweise, aber die zugrundeliegende Spannung bleibt: Das Framework fördert eine Norm, in der „stille Erfindung schlimmer ist als markierte Unsicherheit“, ohne explizit zu diskutieren, wann zu viel Unsicherheitssignalisierung die Entscheidungsfindung untergräbt. Passen Sie die Intensität des Frameworks nicht nur an die Entscheidungseinsätze an, sondern auch an die Risikobereitschaft und Entscheidungszeitpläne der Organisation.

7. Domänenspezifische Anpassung erforderlich

Die Serie behauptet, das Framework sei domänenübergreifend portabel — Dokumentextraktion, Worldbuilding, Szenarioplanung, Cybersecurity, wissenschaftliches Arbeiten. Aber diese Domänen haben sehr unterschiedliche Einsätze, epistemische Strukturen und regulatorische Umgebungen. In der Medizin ist etwas als ANGENOMMEN zu taggen bei Weitem nicht ausreichend, um es sicher zu machen — existierende Richtlinien erfordern RAG, externe Verifikation und menschliche Aufsicht. In der juristischen Arbeit kann ein individuelles Label-Schema mit etablierten Zitationsstandards kollidieren oder von Gerichten fehlinterpretiert werden. In regulierten Branchen können Compliance-Frameworks eigene Provenance-Anforderungen haben. Das allgemeine Muster bietet eine Ausgangsstruktur; domänenspezifische Anpassung und Validierung sind erforderlich, bevor man sich in regulierten oder Hochrisiko-Umgebungen darauf verlässt.

Diese Limitierungen entkräften das Framework nicht — sie begrenzen es. Die drei Regeln sind eine erhebliche Verbesserung gegenüber dem Default (keine Provenance, keine Lückenmarkierung, keine Bestrafung für Raten), aber sie sind keine vollständige Lösung. Sie sind der Beginn einer Praxis, nicht ihr Ende.

Quellen und weiterführende Lektüre

Kahneman, D. & Tversky, A. (1979): „Prospect Theory: An Analysis of Decision under Risk.“ Das grundlegende Werk zu kognitiven Verzerrungen bei Entscheidungen, einschließlich der Unterscheidung Innen- vs. Außenperspektive.
Flyvbjerg, B. (2008): „Curbing Optimism Bias and Strategic Misrepresentation in Planning: Reference Class Forecasting in Practice.“ Das definitive Paper zur Nutzung der Außenperspektive zur Korrektur von Planungsprognosen.
Cantarelli, C.C. et al. (November 2025): „Reference Class Forecasting: Promises, Problems, and a Research Agenda Moving Forward.“ Systematisches Review zu RCF, 2001–2025.
Klein, G. (2007): „Performing a Project Premortem.“ Harvard Business Review. Die Pre-Mortem-Technik zum Aufdecken von Fehlermodi vor ihrem Eintreten.
Dewar, J.A. (2002): „Assumption-Based Planning: A Tool for Reducing Avoidable Surprises.“ Cambridge University Press / RAND.
Lambdin, C. (2024): „Assumption-Based Planning.“ Über das „Geisterszenario“ und tragende Annahmen.
Ramírez, R. et al. (Dezember 2025): „A Faster Way to Build Future Scenarios.“ MIT Sloan. Über KI-gestützte Szenarioplanung und das Aufdecken ungeprüfter Annahmen.
Vorherige Beiträge in dieser Serie:
Beitrag 1: KI-Ehrlichkeit
Beitrag 2: Worldbuilding
Beitrag 3: Szenarioplanung

April 17, 2026

Das Drei-Regeln-Framework #3: Von der Dokumentextraktion zur Szenarioplanung

Dies ist der dritte Beitrag einer Serie über einen kleinen Satz von Prompt-Regeln mit überraschend großer Reichweite.

Im ersten Beitrag habe ich gezeigt, wie drei Regeln — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen — KI davon abhalten, beim Extrahieren von Daten aus Verträgen und Rechnungen stillschweigend zu raten. Im zweiten Beitrag habe ich sie für Alternate-History-Worldbuilding angepasst, wo dieselben Regeln Lore konsistent und die reale Geschichte korrekt halten.

Dieser Beitrag macht den letzten Schritt: Die drei Regeln werden zu einem Framework verallgemeinert, das für Szenarioplanung im Business funktioniert — strategische Planung, KPI-Entwicklung, Projekt-Risikobewertung, Finanzmodellierung, Markteintrittanalyse und jeden anderen Kontext, in dem Sie KI nutzen, um über die Zukunft nachzudenken.

Warum Szenarioplanung anfällig für dasselbe Problem ist

Szenarioplanung hat eine lange intellektuelle Geschichte. RAND entwickelte die Assumption-Based Planning (ABP) Methodik für die US-Armee in den 1990er-Jahren. Shell war Pionier der unternehmerischen Szenarioplanung in den 1980ern unter Peter Schwartz. Der Oxford Scenario Planning Approach, beschrieben in einem MIT-Sloan-Artikel vom Dezember 2025, integriert inzwischen generative KI in den Prozess selbst.

All diese Methoden teilen ein Kernprinzip: Annahmen explizit machen. RAND definiert eine Annahme als „eine Aussage über eine Eigenschaft der Zukunft, die den aktuellen Operationen oder Plänen einer Organisation zugrunde liegt“. Jeder Plan enthält sie. Die meisten sind unsichtbar. Die unsichtbaren sind die, die zu Scheitern führen.

Was passiert nun, wenn Sie Ihre Geschäftsdaten einer KI geben und sie bitten, ein Szenario zu bauen? Das Modell tut genau das, was es bei Verträgen und Fiktion tut: Es füllt Lücken. Umsatzwachstum im Q4? Das Modell wählt eine plausible Zahl. Wettbewerberreaktion auf Ihren Markteintritt? Das Modell erfindet eine. Zeitplan für die behördliche Genehmigung? Das Modell schätzt. Kundenabwanderung unter der neuen Preisstruktur? Das Modell generiert eine Kennzahl.

Jede einzelne davon ist eine Annahme. Keine davon wird als solche gekennzeichnet. Das Szenario liest sich wie eine kohärente Analyse, gestützt auf Daten — aber manche „Daten“ sind real, manche abgeleitet und manche wurden fabriziert, um das Narrativ zusammenzuhalten. Welche welche sind, ist nicht erkennbar.

Es ist dasselbe Problem in seiner dritten Inkarnation. Und es reagiert auf dieselben drei Regeln.

Das allgemeine Muster

Über drei Domänen hinweg wiederholt sich dieselbe Struktur:

Domäne	Kanon (Wahrheitsquelle)	Quellen-Tags	Lücken-Labels
Dokumentextraktion	Das Dokument	EXTRAHIERT / ABGELEITET	LEER
Worldbuilding	Reale Geschichte + Lore	HISTORIE / LORE-BELEGT / LORE-INFERIERT	HISTORISCHE LÜCKE / LORE-LÜCKE
Szenarioplanung	Verifizierte Daten + Etablierte Rahmenbedingungen	VERIFIZIERT / ANGENOMMEN / PROJIZIERT	DATENLÜCKE / ANNAHMELÜCKE

Die zugrundeliegende Logik ist immer dieselbe: Unterscheide, was bekannt ist, von dem, was erfunden wurde, und mache die Grenze sichtbar.

Für Business-Szenarien hat der „Kanon“ zwei Schichten — genau wie beim Worldbuilding:

Verifizierte Daten — Dinge, die Sie aus tatsächlichen Messungen kennen: Vorjahresumsatz, aktuelle Mitarbeiterzahl, unterzeichnete Verträge, gemessene KPIs, Marktdaten aus glaubwürdigen Quellen
Etablierte Rahmenbedingungen — Dinge, die entschieden sind, nicht spekuliert: Budgetgrenzen, regulatorische Vorgaben, vertragliche Fristen, vom Vorstand genehmigte Ziele

Alles andere — Marktwachstumsschätzungen, Wettbewerberverhalten, Kundenadoptionsraten, Technologie-Reifegrad-Zeitpläne — ist eine Annahme. Und Annahmen gibt es in zwei Varianten: solche, die Sie durchdacht haben und verteidigen können (auch wenn sie unsicher sind), und solche, die die KI einfach erfunden hat, weil das Szenario eine Zahl brauchte.

Die drei Regeln existieren, um diese Kategorien zu trennen.

Die drei Regeln für die Szenarioplanung

Regel 1: Leerlassen erzwingen → Unbekannte Variablen markieren

Wenn die KI auf eine Variable trifft, für die sie keine Daten hat, soll sie es sagen — nicht einen plausiblen Wert erfinden.

Die Lücken-Labels für Business-Szenarien teilen sich in zwei Typen:

[DATENLÜCKE] — ein faktischer Input, den das Szenario braucht, der aber nicht bereitgestellt oder nicht verfügbar ist. Beispiel: „Diese Projektion benötigt die Kundenakquisitionskosten (CAC) für die DACH-Region; keine Daten wurden bereitgestellt.“
[ANNAHMELÜCKE] — eine strategische oder verhaltensbezogene Annahme, auf die sich das Szenario stützt, die aber nicht explizit validiert wurde. Beispiel: „Dieses Szenario setzt voraus, dass Wettbewerber X die Preise nicht senkt. Diese Annahme wurde nicht validiert.“

Hier konvergieren RANDs ABP-Framework und die drei Regeln am direktesten. Dewar und seine Kollegen bei RAND argumentieren, dass jeder Plan ein „Geisterszenario“ hat — den impliziten, unausgesprochenen Satz von Annahmen über die Zukunft, für den der Plan zugeschnitten ist. Die gefährlichsten Annahmen sind die, von denen niemand wusste, dass sie sie machten. Die KI zu zwingen, Lücken zu markieren, ist eine praktische Methode, das Geisterszenario sichtbar zu machen.

Regel 2: Raten bestrafen → Eine stille Annahme ist schlimmer als ein bekanntes Unbekanntes

Die Business-Version von „Eine falsche Antwort ist 3× schlimmer als ein leeres Feld“ lautet:

Eine versteckte Annahme, die in die Analyse eingebaut ist, ist schlimmer als eine explizit markierte Unsicherheit. Wenn Daten fehlen, markiere die Lücke — fülle sie nicht mit einer plausibel klingenden Zahl.

Warum ist das bei Szenarien gefährlicher als bei der Dokumentextraktion? Weil Szenarien kumulieren. Eine einzige unmarkierte Annahme über Marktwachstum fließt in Umsatzprojektionen, die in Personalplanung fließen, die in Budgetallokation fließt, die in Vorstandspräsentationen fließt. Bis die Annahme scheitert, basieren sechs Monate Planung darauf.

ABP nennt diese „tragende Annahmen“ — solche, deren Scheitern fundamentale Änderungen am Plan erfordern würde. Das Drei-Regeln-Framework legt sie offen, bevor sie Last tragen.

Regel 3: Die Quelle zeigen → VERIFIZIERT / ANGENOMMEN / PROJIZIERT

Jede Zahl, jeder Trend, jede Verhaltensaussage im Szenario bekommt einen von drei Tags:

(VERIFIZIERT) — basiert auf tatsächlichen Daten, die Sie bereitgestellt haben: Finanzberichte, unterzeichnete Verträge, gemessene KPIs, zitierfähige Drittquellen
(ANGENOMMEN) — eine Überzeugung über die Zukunft, auf die sich das Szenario stützt und die falsch sein könnte. Das Modell muss die Annahme explizit nennen: „Nimmt 15 % Jahreswachstum in Segment X an, konsistent mit dem Trend 2023–2025″
(PROJIZIERT) — ein Wert, der aus verifizierten Daten und genannten Annahmen berechnet oder abgeleitet wird. Das Modell muss die Herleitung zeigen: „Projiziert aus den Q1–Q3-Ist-Werten bei aktuellem Run Rate“

Die kritische Unterscheidung zwischen ANGENOMMEN und PROJIZIERT: Eine Annahme ist eine Überzeugung, die Sie in das Szenario einbringen; eine Projektion ist eine Berechnung, die das Modell mit Ihren Daten und Annahmen als Input durchführt. Annahmen können hinterfragt werden („Was, wenn das Wachstum 5 % statt 15 % beträgt?“). Projektionen können geprüft werden („Zeig mir die Berechnung“).

Der kombinierte Prompt

Hier das vollständige Framework als System-Prompt. Ersetzen Sie die Platzhalter mit Ihrem spezifischen Kontext.

Du bist mein Szenario-Planungs-Analyst. Wir erstellen ein(e) [TYP: Businessplan / Marktanalyse / Projekt-Risikobewertung / KPI-Framework / Budget-Szenario] für [KONTEXT: Unternehmen, Projekt, Produkt, Markt].

Deine Aufgabe ist es, Analysen zu erstellen, die transparent darlegen, was sie wissen, was sie annehmen und was sie nicht wissen. Befolge diese Regeln strikt:

Regel 1 — Unbekannte Variablen markieren:
• Wenn das Szenario Daten erfordert, die nicht bereitgestellt wurden, erfinde keinen plausiblen Wert. Verwende [DATENLÜCKE: Beschreibung welche Daten fehlen und warum sie relevant sind].
• Wenn das Szenario auf einer strategischen oder verhaltensbezogenen Annahme beruht, die nicht explizit validiert wurde, markiere sie mit [ANNAHMELÜCKE: Beschreibung der unausgesprochenen Annahme].

Regel 2 — Lücken nicht stillschweigend füllen:
• Eine versteckte Annahme in der Analyse ist schlimmer als eine explizit markierte Unsicherheit.
• Wenn Daten fehlen, markiere die Lücke. Generiere keine plausibel klingende Zahl.
• Wenn ein Ergebnis von Annahmen über Wettbewerberverhalten, Marktdynamik, regulatorische Entscheidungen oder Kundenreaktion abhängt, nenne die Annahme explizit statt sie als Fakt einzubauen.

Regel 3 — Quellenkennzeichnung:
Kennzeichne jede wesentliche Behauptung, Zahl oder Schlussfolgerung mit ihrer Quelle:
• (VERIFIZIERT) — basiert auf tatsächlichen Daten, die ich bereitgestellt habe, oder glaubwürdigen, zitierten Drittdaten
• (ANGENOMMEN) — eine Überzeugung über die Zukunft, von der das Szenario abhängt. Nenne die Annahme und worauf sie basiert.
• (PROJIZIERT) — berechnet oder abgeleitet aus verifizierten Daten und genannten Annahmen. Zeige oder beschreibe die Herleitung.
• Für jedes ANGENOMMEN-Tag: Nenne kurz, was sich ändern würde, wenn die Annahme falsch ist.

Beispiel: Markteintritt-Szenario

So sieht der Output aus, wenn die Regeln aktiv sind. Stellen Sie sich vor, Sie bitten die KI, einen SaaS-Produktlaunch in einem neuen Markt zu bewerten:

Variable	Wert	Quelle	Anmerkung
Aktueller ARR	2,4 Mio. €	VERIFIZIERT	Q4-2025-Finanzbericht
Zielmarktgröße (DACH)	340 Mio. €	VERIFIZIERT	Gartner-Bericht 2025, zitiert
Marktanteil Jahr 1	—	DATENLÜCKE	Keine vergleichbaren Launch-Daten für dieses Segment vorhanden
CAC (DACH-Region)	—	DATENLÜCKE	Aktueller CAC gilt nur für US-Markt; Akquisitionskosten DACH nicht bereitgestellt
Preismodell	49 €/Platz/Monat	VERIFIZIERT	Vom Vorstand genehmigte Preisentscheidung, März 2026
Wettbewerberreaktion	Keine Preissenkung	ANGENOMMEN	Nimmt an, dass Incumbent-Wettbewerber aktuelle Preise beibehält. Bei 20 % Rabatt sinkt die projizierte Marge von 68 % auf ca. 51 %
Umsatzprojektion Jahr 1	180K–420K €	PROJIZIERT	Spanne basiert auf 30–70 Enterprise-Seats zum genannten Preis. Untere Grenze ohne Channel-Partner; obere mit 2 Reseller-Vereinbarungen (ANNAHMELÜCKE: keine Reseller-Gespräche bestätigt)

Vergleichen Sie das mit dem, was dasselbe Modell ohne Regeln produzieren würde: eine einzelne, selbstbewusste Umsatzprojektion von 310K €, ein spezifischer Marktanteil, ein angenommener CAC, der wie Daten aussieht, und kein Hinweis darauf, welche Zahlen real und welche erfunden sind.

Die getaggte Version braucht dreißig Sekunden länger zum Lesen. Sie spart Wochen der Planung auf falschen Fundamenten.

Anwendungen über die Strategie hinaus

KPI-Entwicklung: Beim Definieren von KPIs für eine neue Initiative jeden Zielwert taggen als VERIFIZIERT (auf historischer Baseline basierend), ANGENOMMEN (auf Industrie-Benchmarks oder Management-Erwartungen basierend) oder PROJIZIERT (aus verifizierten Inputs berechnet). Jeden KPI ohne verlässliche Baseline mit [DATENLÜCKE] markieren.

Projekt-Risikobewertung: Für jedes identifizierte Risiko Wahrscheinlichkeit und Auswirkung taggen als VERIFIZIERT (auf historischen Vorfallsdaten basierend), ANGENOMMEN (auf Expertenmeinung oder Analogie basierend) oder PROJIZIERT (aus einem Modell abgeleitet). Risiken ohne Daten- oder Expertenbasis mit [ANNAHMELÜCKE] markieren.

Budget-Szenarien: Jede Budgetposition taggen. Fixkosten aus unterschriebenen Verträgen sind VERIFIZIERT. Personalabhängige Kosten basierend auf geplantem Recruiting sind PROJIZIERT (mit dem Einstellungsplan als genannte Annahme). Umsatzabhängige Positionen sind ANGENOMMEN, wenn Umsatzziele nicht gegen Pipeline-Daten validiert wurden.

Wettbewerbsanalyse: Jede Aussage über Strategie, Preise oder Marktposition eines Wettbewerbers taggen. Öffentliche Finanzdaten sind VERIFIZIERT. Schlüsse aus Stellenanzeigen oder Patentanmeldungen sind PROJIZIERT. Annahmen über künftige Züge sind ANGENOMMEN — mit expliziter „Falls falsch“-Anmerkung.

Das Framework als Muster

Über alle drei Beiträge hinweg lässt sich das allgemeine Framework in einem Absatz formulieren:

Wenn Sie KI in einer Domäne einsetzen, in der Quellentreue zählt, wenden Sie drei Regeln an: (1) Geben Sie dem Modell explizit die Erlaubnis, nicht zu wissen, mit beschrifteten Lücken; (2) machen Sie die Kosten einer stillen Erfindung höher als die Kosten einer markierten Unsicherheit; (3) verlangen Sie, dass jede Behauptung einen Provenance-Tag trägt, der zeigt, ob sie aus verifiziertem Quellmaterial stammt, aus genannten Annahmen oder aus der eigenen Inferenz des Modells. Die konkreten Labels ändern sich je nach Domäne, aber die Struktur ist universell.

	Regel 1: Leerlassen	Regel 2: Raten bestrafen	Regel 3: Quelle zeigen
Extraktion	LEER + Begründung	Falsche Antwort 3× schlimmer	EXTRAHIERT / ABGELEITET
Worldbuilding	HISTORISCHE LÜCKE / LORE-LÜCKE	Falsche Erfindung schlimmer als Lücke	HISTORIE / LORE-BELEGT / LORE-INFERIERT
Szenarien	DATENLÜCKE / ANNAHMELÜCKE	Versteckte Annahme schlimmer als bekanntes Unbekanntes	VERIFIZIERT / ANGENOMMEN / PROJIZIERT
Allgemein	[LÜCKE: Typ + Erklärung]	Stille Erfindung > markierte Unsicherheit	QUELLE / ABGELEITET / INFERIERT

Die untere Zeile ist die portable Version. Sie funktioniert für juristische Recherche, medizinische Zusammenfassungen, akademische Literaturreviews, Code-Refactoring, Übersetzung — jede Aufgabe, bei der das Modell nützlich sein soll, ohne unehrlich zu sein.

RANDs James Dewar schrieb 2002, dass jeder Plan ein „Geisterszenario“ hat — den unausgesprochenen Satz von Annahmen über die Zukunft, für den der Plan unbewusst zugeschnitten ist. Das Drei-Regeln-Framework ist im Kern ein Geisterszenario-Detektor. Es zwingt das Unsichtbare, sichtbar zu werden — egal ob der Plan ein Lieferantenvertrag, ein fiktives Universum oder eine Fünf-Jahres-Geschäftsstrategie ist.

Die Modelle werden jedes Quartal schlauer. Sie ehrlich zu machen, liegt nach wie vor an uns.

Quellen und weiterführende Lektüre

Dewar, J.A. et al. (1993/2002): „Assumption-Based Planning.“ RAND Corporation. Die grundlegende Methodik zur Identifikation, Prüfung und Planung um kritische Annahmen herum. Überblick bei MindTools.
Lambdin, C. (2024): „Assumption-Based Planning.“ Exzellenter Deep-Dive in ABP mit dem „Geisterszenario“-Konzept.
Ramírez, R. et al. (Dezember 2025): „A Faster Way to Build Future Scenarios.“ MIT Sloan Management Review. Über die Integration generativer KI in den Oxford Scenario Planning Approach.
Schwartz, P. (1991): „The Art of the Long View: Planning for the Future in an Uncertain World.“ Der Grundlagentext zur unternehmerischen Szenarioplanung.
Vorherige Beiträge in dieser Serie:
ChatGPT und Claude wurden schlauer. Nicht ehrlicher. — Die ursprünglichen drei Regeln für Dokumentextraktion.
Von der Vertragsanalyse zur Alternate History — Anpassung der Regeln für Worldbuilding.

April 12, 2026

Von der Dokumentenanalyse zur Alternate History: Warum die drei Ehrlichkeits-Regeln auch fürs Worldbuilding funktionieren

Vor ein paar Wochen habe ich über drei Prompt-Regeln geschrieben, die KI davon abhalten zu raten, wenn sie Daten aus Dokumenten extrahiert. Die Regeln — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen — waren für unspektakuläre Geschäftsprobleme gedacht: Verträge mit widersprüchlichen Klauseln, Meetingnotizen mit mehrdeutigen Zusagen, Rechnungen mit fehlenden Feldern.

Aber je mehr ich sie anwandte, desto stärker fiel mir etwas auf: Dieselben Regeln lösen ein völlig anderes Problem — eines, das mit Geschäftsdokumenten nichts zu tun hat.

Sie lösen Worldbuilding.

Das Problem: KI als Continuity Editor

Jeder, der versucht hat, ein LLM für längerfristige kreative Arbeit zu nutzen, kennt das Muster. Sie bauen eine alternative Zeitlinie, eine Fantasy-Welt, ein Science-Fiction-Universum, eine Pen-and-Paper-Kampagne. Sie haben hunderte Seiten Lore geschrieben. Sie geben sie an Claude oder ChatGPT und stellen eine Frage dazu, wie Ihre fiktive Welt funktioniert.

Und das Modell erfindet etwas.

Es konstruiert eine Fraktion, die nicht existiert. Es ordnet eine Technologie der falschen Epoche zu. Es „erinnert sich“ an einen Charakter, der nie in Ihren Notizen stand. Es platziert ein fiktives Ereignis selbstbewusst in einer realen historischen Periode — und bekommt dabei noch die reale Geschichte falsch. Der Output klingt plausibel, in sich konsistent, schön geschrieben — und widerspricht allem, was Sie aufgebaut haben.

Das ist dasselbe strukturelle Problem wie im vorherigen Post, nur in einer anderen Domäne. Das Modell ist darauf trainiert, vollständigen, kohärenten Output zu produzieren. Wenn Ihre Lore eine Lücke hat, füllt das Modell sie — weil Lücken füllen genau das ist, worauf es optimiert wurde. Ob die Lücke „Wie lauten die Zahlungsbedingungen in Abschnitt 4?“ ist oder „Was geschah im Imperialen Senat nach dem Divergenzpunkt?“, der Instinkt ist identisch: Etwas erfinden, das richtig klingt.

Die Forschung hat dafür im Fiction-Kontext einen eigenen Begriff: „Charakter-Halluzination“ (Wu et al., 2024) — wenn eine KI, die eine Rolle spielt, die etablierte Identität dieser Rolle verletzt. Das IJCAI-2025-Tutorial zu LLM-Rollenspielen nennt die allgemeine Herausforderung „controlled hallucination“: Das Modell muss innerhalb der etablierten Regeln einer fiktiven Welt kreativ erfinden, sich aber rigoros weigern, Dinge zu erfinden, die diese Regeln verletzen. Die Grenze zwischen produktiver Kreativität und lore-brechender Konfabulation ist genau die Grenze, die die drei Regeln ziehen sollen.

Die Anpassung: Worldbuilding hat zwei Kanons, nicht einen

Bei der Vertragsanalyse gibt es eine Quelle der Wahrheit: das Dokument. Extrahiere, was da ist, markiere, was fehlt, erfinde nichts.

Bei Alternate History gibt es zwei gleichzeitig wirkende Wahrheitsquellen:

Reale Geschichte — alles, was in unserer Welt passiert ist, bevor die Geschichte von ihr abweicht
Ihre Lore — alles, was Sie darüber etabliert haben, was nach der Divergenz passiert

Beides ist kanonisch. In beidem darf die KI nichts erfinden. Und die Grenze zwischen beidem ist scharf: der „Divergenzpunkt“ (Point of Divergence, POD), der Moment, in dem Ihre fiktive Zeitlinie von der realen Geschichte abbricht.

Vor dem POD muss die KI ein Historiker sein. Sie kann auf reale Personen, reale Technologien, reale Schlachten, reale Ereignisse verweisen — aber nur auf Dinge, die tatsächlich passiert sind. Eine Schlacht zu erfinden, die nicht stattgefunden hat, oder eine Person, die nicht existierte, ist genauso schlimm wie eine Vertragsklausel zu erfinden.

Nach dem POD muss die KI ein Continuity Editor sein. Nur die Dinge existieren, die in Ihrer Lore etabliert sind. Alles andere ist eine Lücke — und Lücken sollten markiert, nicht gefüllt werden.

Hier kommen die drei Regeln ins Spiel, fast unverändert.

Die drei Regeln, angepasst

Regel 1: Leerlassen erzwingen → Lücken markieren

Bei der Dokumentextraktion lässt das Modell ein Feld LEER, wenn die Daten fehlen, und begründet warum. Beim Worldbuilding gilt dasselbe Prinzip mit zwei Labels statt einem — weil es zwei Arten von Lücken gibt:

[HISTORISCHE LÜCKE] — für Ereignisse vor dem Divergenzpunkt, bei denen das Modell nicht sicher ist. Keine Biografie eines römischen Konsuls erfinden; die Lücke markieren.
[LORE-LÜCKE: Dazu gibt es bisher keine etablierten Vorgaben] — für Entwicklungen nach dem Divergenzpunkt, die Ihre Lore nicht abdeckt. Keine neue Fraktion, Technologie oder Großereignis erfinden; die Lücke markieren.

Der entscheidende Schritt ist derselbe wie zuvor: Dem Modell explizit die Erlaubnis geben, nicht zu wissen. Ohne diese Erlaubnis überschreibt der Vervollständigungsinstinkt des Modells seine Unsicherheitserkennung, und Sie bekommen selbstbewusst geschriebene Halluzinationen, die sich anfühlen wie Kanon, es aber nicht sind.

Regel 2: Raten bestrafen → Eine falsche Erfindung ist schlimmer als eine Lücke

Die Geschäftsversion dieser Regel lautet: „Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.“

Die Worldbuilding-Version ist noch strenger, weil die Konsequenzen gravierender sind. Ein falscher Zahlungsbegriff in einer Tabelle wird korrigiert. Ein falsches Lore-Detail, das in Ihren Kanon aufgenommen wird, weil es richtig klang, kann hunderte Stunden weiterer Arbeit vergiften. Jede spätere Referenz baut darauf auf. Jeder Charakter interagiert damit. Bis Sie es bemerken, ist es durch Ihre Welt gewoben.

Also wird aus der Regel:

Eine falsche Erfindung ist schlimmer als das Eingestehen einer Lücke im Worldbuilding.

Kein Multiplikator nötig. Die Asymmetrie ist total. In kreativer Arbeit ist eine Lücke eine Einladung, Ihre Lore zu Ihren eigenen Bedingungen auszubauen. Eine schlechte Erfindung ist ein Bug, der in Produktion geht.

Regel 3: Die Quelle zeigen → Drei Provenance-Tags statt zwei

Bei der Dokumentextraktion ist jeder Wert entweder EXTRAHIERT (direkt aus der Quelle) oder ABGELEITET (berechnet oder hergeleitet). Beim Worldbuilding brauchen Sie drei Tags, weil Sie zwei kanonische Quellen plus Ihre eigene Extrapolation haben:

(HISTORIE) — reale historische Fakten vor dem Divergenzpunkt
(LORE-BELEGT) — genau so in Ihren Lore-Texten enthalten
(LORE-INFERIERT) — eine logische Konsequenz, die das Modell aus Ihrer Lore ableitet, mit einsätziger Begründung

Das dritte Tag ist, wo die Magie passiert. Sie wollen, dass das Modell extrapoliert — genau das macht es fürs Worldbuilding nützlich. Eine etablierte Technologie muss Konsequenzen haben; eine etablierte Fraktion muss mit anderen Fraktionen interagieren; ein etabliertes Ereignis muss Folgewirkungen haben. Aber Sie wollen diese Extrapolationen markiert, damit Sie sie prüfen und entscheiden können, ob sie zu Ihrer Vision passen. Eine markierte Inferenz, der Sie widersprechen, korrigieren Sie in dreißig Sekunden. Eine unmarkierte Inferenz, die still zum Kanon wird, auseinanderzufieseln dauert drei Sessions später Stunden.

Der kombinierte Prompt

Hier ist die vollständige Adaption, strukturiert als System-Prompt, den Sie in jeden länger laufenden Chat zu Ihrer fiktiven Welt kopieren können. Ersetzen Sie die Platzhalter mit Ihrem eigenen Setting.

Wir bauen eine alternative Zeit, die im Jahr [JAHR] beginnt mit [ÄNDERUNG / DIVERGENZPUNKT]. Du bist mein Historiker und Continuity Editor für dieses Alternate-History-Universum. Deine Aufgabe ist es, Texte, Antworten und Lore-Konzepte zu erstellen, die absolut widerspruchsfrei sind.

Die wichtigste Grundregel (der Divergenzpunkt): Das Jahr des Divergenzpunktes ist [JAHR].

Regel 1 — VOR dem Divergenzpunkt (strikte Historie):
• Alles, was vor diesem Datum passiert ist, MUSS zu 100 % der realen, verifizierbaren irdischen Geschichte entsprechen.
• Erfinde keine historischen Personen, Technologien, Schlachten oder Ereignisse.
• Wenn du ein historisches Detail nicht sicher weißt, erfinde es nicht. Nutze stattdessen den Platzhalter [HISTORISCHE LÜCKE].

Regel 2 — NACH dem Divergenzpunkt (strikter Lore-Kanon):
• Alles, was nach diesem Datum passiert, darf AUSSCHLIESSLICH auf den von mir bereitgestellten Lore-Texten basieren.
• Erfinde keine neuen Fraktionen, Hauptcharaktere, Großereignisse oder fundamentalen Technologien, die nicht in meinen Texten etabliert wurden.
• Wenn du nach Entwicklungen gefragt wirst, zu denen meine Lore keine Angaben macht, antworte mit [LORE-LÜCKE: Dazu gibt es bisher keine etablierten Vorgaben]. Eine falsche Erfindung ist schlimmer als das Eingestehen einer Lücke im Worldbuilding.

Regel 3 — Quellen- und Logik-Kennzeichnung:
Um das Worldbuilding sauber zu halten, markiere am Ende jedes Absatzes oder bei jeder wichtigen Behauptung in Klammern, woher die Information stammt:
• (HISTORIE) für reale historische Fakten vor dem Divergenzpunkt
• (LORE-BELEGT) für Fakten, die exakt so in meinen Texten stehen
• (LORE-INFERIERT) für logische Schlussfolgerungen aus meiner Lore (z. B. wie sich eine etablierte Technologie auf den Alltag auswirkt). Wenn du etwas inferierst, erkläre in einem kurzen Satz, woraus du das ableitest.

Jahr einsetzen, Divergenzereignis einsetzen, Lore-Dokumente anhängen — und Sie haben einen Continuity Editor, der sich aktiv weigert, Sie anzulügen.

Was das ermöglicht

Die Workflow-Änderung ist erheblich. Ohne diese Regeln müsste jeder KI-generierte Absatz gegen die reale Geschichte und Ihre eigenen Notizen geprüft werden — was niemand tatsächlich tut, was bedeutet, dass Fehler sich still ansammeln. Mit den Regeln geht Ihre Aufmerksamkeit genau dahin, wohin sie gehört: zu den Lücken (wo Sie entscheiden, was Ihre Welt als Nächstes tut) und zu den Inferenzen (wo Sie die Extrapolation des Modells freigeben oder verwerfen).

Ein paar Beobachtungen aus der Praxis:

Die Lücken sind oft der interessanteste Output. Wenn das Modell [LORE-LÜCKE] markiert, ist das der Moment, in dem Sie erkennen, dass Ihre Lore ein Loch hat — und oft ist dieses Loch genau das Nächste, was Sie entwickeln sollten. Das Modell versagt nicht beim Antworten; es sagt Ihnen, wo Ihre Welt mehr Arbeit braucht.

Inferenzen legen die Implikationen Ihrer Lore offen. Ein gut markierter (LORE-INFERIERT)-Absatz bringt oft Konsequenzen zutage, die Sie nicht durchdacht hatten. „Sie haben etabliert, dass Fraktion X die Handelsroute in Y kontrolliert; daraus folgt, dass Hafenstadt Z wirtschaftlich abhängig wird, was Spannungen mit Nachbar W nahelegt.“ Das ist nützlich, selbst wenn Sie die konkrete Extrapolation ablehnen — sie zeigt Ihnen eine logische Konsequenz Ihres eigenen Setups.

Reale Geschichte hält die Fiktion geerdet. Alternate History funktioniert am besten, wenn das „Vorher“ korrekt ist. Wenn Ihre Zeitlinie 1914 divergiert und das Modell die Welt vor 1914 falsch darstellt, verliert die ganze Divergenz an Bedeutung. Erzwungene (HISTORIE)-Labels — und die Pflicht, [HISTORISCHE LÜCKE] bei Unsicherheit zu markieren — halten das Fundament solide.

Das tiefere Muster

Was ich bemerkenswert finde, ist, dass dieselben drei Regeln in zwei Domänen funktionieren, die nichts gemeinsam zu haben scheinen. Geschäftliche Dokumentextraktion und kreatives Worldbuilding teilen kein Vokabular, keine Zielgruppe, keinen Workflow. Aber sie teilen eine Struktur: In beiden Fällen muss der Nutzer, dass die KI zwischen was etabliert ist und was erfunden wurde unterscheidet und diese Grenze klar kennzeichnet.

Diese strukturelle Ähnlichkeit ist es wert, ernst genommen zu werden. Sie legt nahe, dass die drei Regeln nicht wirklich spezifisch für Verträge oder Fiktion sind — sie betreffen das allgemeine Problem, KI in jedem Kontext einzusetzen, in dem Quellentreue wichtiger ist als Sprachfluss. Juristische Recherche. Code-Refactoring gegen einen Styleguide. Historische Forschung. Medizinische Zusammenfassungen. Übersetzung gegen ein Glossar. Technische Dokumentation gegen eine Spezifikation. Literatur-Review im akademischen Bereich.

In all diesen Fällen arbeitet das Default-Verhalten der KI — einen selbstbewussten, vollständigen, kohärenten Output produzieren — gegen das eigentliche Bedürfnis des Nutzers: zu wissen, welche Teile des Outputs gestützt sind und welche die eigene Beigabe des Modells sind. „Leerlassen erzwingen“ gibt ihm die Erlaubnis, nicht zu wissen. „Raten bestrafen“ verschiebt das Kalkül zugunsten der Ehrlichkeit. „Die Quelle zeigen“ macht die Grenze zwischen Quelle und Erfindung sichtbar.

Drei Regeln. Je zwei Sätze. Anwendbar überall, wo Quellentreue zählt.

Die Alternate-History-Version ist nur eine Adaption. Ich bin neugierig, in welche anderen Domänen dieses Muster passt — wenn Sie eine finden, hören Sie es mir gerne sagen.

Quellen und weiterführende Lektüre

Wu et al. (2024): „RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems.“ Paper, das Charakter-Halluzination als Verletzung der Rollenidentität definiert.
IJCAI 2025 Tutorial: „LLM-based Role-Playing from the Perspective of Hallucinations.“ Führt das Konzept „controlled hallucination“ ein — kreative Erfindung innerhalb szenariospezifischer Regeln.
Vorheriger Beitrag: „ChatGPT und Claude wurden schlauer. Nicht ehrlicher.“ Die ursprünglichen drei Regeln für Dokumentextraktion.
Panickssery, N. (2025): „Why do LLMs hallucinate?“ Über Halluzination als Standardverhalten von Basis-Modellen und warum aktives Training oder Prompting nötig ist, um es zu unterdrücken.
Bicking, I. (2023–2025): „Creating Worlds with LLMs.“ Essay-Serie über Worldbuilding mit LLMs, einschließlich der Spannung zwischen Konsistenz und Überraschung.
DiGRA (2025): „Reconceptualizing LLM-Induced Hallucinations as Game Design Features.“ Darüber, wann Halluzinationen interaktive Fiktion verbessern und wann sie sie kaputtmachen.

März 31, 2026

Drei Prompt-Regeln, die KI davon abhalten zu raten — und die Wissenschaft dahinter

Jede neue Modellgeneration wird mit großem Tamtam angekündigt: bessere Benchmarks, höhere Genauigkeitswerte, beeindruckendere Demos. GPT-5 löst komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verblüffender Leichtigkeit. Die Intelligenzkurve steigt und steigt.

Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft — die Ehrlichkeitskurve. Und die hat sich kaum bewegt.

Das ist keine vage philosophische Klage. Es ist ein strukturelles Problem, das in Training, Evaluierung und Einsatz dieser Modelle fest eingebaut ist. Und es trifft genau die Arbeit am härtesten, bei der Menschen zunehmend auf KI setzen: Daten aus Verträgen extrahieren, Rechnungen auswerten, Meetingnotizen zusammenfassen, CRM-Einträge aus unstrukturierten Quellen erstellen.

Dieser Beitrag erklärt, warum die Lücke zwischen Intelligenz und Ehrlichkeit existiert, was die aktuelle Forschung über ihre Ursachen sagt — und vor allem: drei Prompt-Regeln, die Sie heute anwenden können, um KI dazu zu bringen, ehrlich zuzugeben, was sie nicht weiß.

Die Lücke: Intelligenz vs. Ehrlichkeit

Wenn wir sagen, ein Modell sei „schlauer geworden“, meinen wir in der Regel, dass es bei Benchmarks besser abschneidet — Mathematik-Wettbewerbe, Programmieraufgaben, mehrstufige Denkaufgaben. Das sind reale Verbesserungen. Aber Benchmark-Ergebnisse messen die Fähigkeit eines Modells, korrekte Antworten zu geben. Sie messen nicht seine Bereitschaft, „Ich weiß es nicht“ zu sagen.

Tatsächlich bestraft die Anreizstruktur Ehrlichkeit sogar aktiv.

Im September 2025 veröffentlichte OpenAI ein Forschungspapier, das dieses Problem präzise beschreibt. Das Team — darunter Forscher vom Georgia Institute of Technology — untersuchte große KI-Benchmarks und stellte fest, dass die überwiegende Mehrheit binäre Bewertung verwendet: Entweder die Antwort ist korrekt und bekommt einen Punkt, oder sie ist falsch und bekommt null. Entscheidend: Auch die Enthaltung — also „Ich weiß es nicht“ zu sagen — bekommt null. Die mathematische Konsequenz ist eindeutig: Raten erzielt immer einen höheren erwarteten Score als Enthaltung. Ein Modell, das bei jeder unsicheren Frage blufft, wird höher eingestuft als eines, das ehrlich ablehnt.

OpenAIs eigener Blogpost formulierte es anschaulich: Die Situation gleicht einem Multiple-Choice-Test, bei dem eine leere Antwort garantiert null Punkte gibt, aber Raten zumindest eine Chance bietet. Unter diesen Regeln ist die rationale Strategie, immer zu raten — auch wenn man keine Ahnung hat. Und genau das lernen die Modelle.

Das Paper demonstrierte dies mit einem eindrücklichen Beispiel: Nach dem Titel der Doktorarbeit eines seiner eigenen Co-Autoren gefragt, produzierte ein weit verbreitetes Modell bei drei Versuchen drei verschiedene Titel mit voller Überzeugung. Alle drei waren falsch. Dasselbe passierte mit seinem Geburtstag — drei Daten, alle falsch, alle mit unerschütterlicher Zuversicht vorgetragen.

Das ist kein Bug, der gepatcht werden kann. Es ist das natürliche Ergebnis der Optimierung auf reine Genauigkeitsmetriken. Wie die OpenAI-Forscher argumentieren, müssen die gängigen Benchmarks und Leaderboards so umgestaltet werden, dass sie selbstsichere Fehler stärker bestrafen als Unsicherheit. Bis dahin wird jedes Modell, das im Leaderboard aufsteigt, dies teilweise dadurch schaffen, dass es besser blufft.

Warum Modelle konfabulieren: Erkenntnisse aus der Interpretierbarkeitsforschung

Das OpenAI-Paper erklärt das Anreizproblem. Aber was passiert mechanisch im Inneren des Modells, wenn es etwas erfindet?

Anthropics Interpretierbarkeitsforschung — im März 2025 unter dem Titel „Tracing the Thoughts of a Large Language Model“ veröffentlicht — liefert einige der detailliertesten Antworten, die wir haben. Mit etwas, das sie als „Mikroskop“ für KI beschreiben, verfolgten Anthropics Forscher die internen Schaltkreise, die aktiviert werden, wenn Claude eine Frage verarbeitet. Dabei ist anzumerken, dass diese Erkenntnisse spezifisch für Claude 3.5 Haiku sind — andere Modellfamilien könnten Unsicherheit über andere interne Mechanismen handhaben — aber die Muster sind vermutlich allgemein genug, um instruktiv zu sein.

Eine ihrer aufschlussreichsten Entdeckungen betrifft etwas, das man als Default-Verweigerungs-Mechanismus bezeichnen könnte. Bei Claude ist die Verweigerung einer Antwort tatsächlich das Standardverhalten: Die Forscher fanden einen Schaltkreis, der standardmäßig aktiviert ist und das Modell veranlasst, mitzuteilen, dass es nicht genug Informationen hat. Aber wenn das Modell eine „bekannte Entität“ erkennt — etwa Michael Jordan den Basketballspieler — feuert ein konkurrierender Satz von Features und unterdrückt diesen Standard-Schaltkreis, sodass das Modell antworten kann.

Das Problem entsteht, wenn dieser Mechanismus fehlzündet. Wenn das Modell einen Namen erkennt, aber die relevanten Fakten nicht kennt, kann das „bekannte Entität“-Signal trotzdem den „Ich weiß es nicht“-Schaltkreis überschreiben. Das Ergebnis: eine selbstbewusste, detaillierte, komplett erfundene Antwort. In einem Experiment verwendeten die Forscher eine Person namens Michael Batkin — jemanden, der dem Modell unbekannt war und standardmäßig eine Verweigerung auslöste. Als sie aber künstlich die „bekannte Entität“-Features aktivierten oder die „Kann nicht antworten“-Features unterdrückten, halluzinierte Claude prompt — und konsistent —, dass Batkin berühmt sei fürs Schachspielen.

Noch beunruhigender: Anthropic fand Belege dafür, dass Claude, wenn es eine Antwort nicht leicht berechnen kann (etwa den Kosinus einer großen Zahl), sich manchmal in etwas engagiert, was der Philosoph Harry Frankfurt als Bullshitting bezeichnen würde — eine Antwort produzieren, ohne dass intern irgendein Beleg für eine tatsächliche Berechnung vorliegt. Obwohl das Modell behauptete, gerechnet zu haben, zeigten die Interpretierbarkeits-Tools keine Spur einer Berechnung. Wenn man ihm einen Hinweis auf die erwartete Antwort gab, arbeitete Claude rückwärts und konstruierte plausibel aussehende Zwischenschritte, die zum vorgegebenen Ergebnis führen — ein Lehrbuchbeispiel für motiviertes Denken.

Diese Erkenntnisse sind wichtig, weil sie zeigen, dass das Ehrlichkeitsproblem nicht nur eine Frage der Trainingsanreize ist. Die Modelle haben interne Mechanismen, die Unsicherheit eigentlich erkennen sollen — aber diese Mechanismen können von anderen Kräften überschrieben werden, darunter der Drang nach grammatikalischer Kohärenz und der Pattern-Matching-Instinkt, Lücken zu füllen.

Automation Bias: Warum das wichtiger ist, als Sie denken

All das wäre rein akademisch, wenn Menschen KI-Output mit angemessener Skepsis behandeln würden. Tun sie aber nicht.

Automation Bias — die Tendenz, sich übermäßig auf automatisierte Empfehlungen zu verlassen — ist eines der am gründlichsten dokumentierten Phänomene in der Mensch-Computer-Interaktionsforschung. Ein systematisches Review aus dem Jahr 2025, veröffentlicht in AI & Society, analysierte 35 begutachtete Studien aus den Bereichen Gesundheitswesen, Finanzwirtschaft, nationale Sicherheit und öffentliche Verwaltung. Das Muster war domänenübergreifend konsistent: Wenn ein KI-System eine selbstbewusste Antwort liefert, akzeptieren Menschen sie. Sie prüfen weniger. Sie überstimmen ihr eigenes Urteil.

Eine randomisierte klinische Studie mit KI-geschulten Ärzten in Pakistan (veröffentlicht als Preprint im August 2025) machte die Dynamik besonders deutlich. Selbst Ärzte, die 20 Stunden KI-Kompetenztraining absolviert hatten — einschließlich Anleitung zur kritischen Bewertung von KI-Output — waren anfällig für Automation Bias, wenn sie fehlerhaften LLM-Empfehlungen ausgesetzt waren. Das Training half, beseitigte das Problem aber nicht. Selbstbewusst klingender KI-Output hat eine Gravitationskraft, der man schwer widerstehen kann, selbst wenn man weiß, dass man nach Fehlern suchen sollte.

Die realen Konsequenzen sind bereits sichtbar. Im Februar 2024 wurde Air Canada verurteilt, einem Kunden Schadenersatz zu zahlen, nachdem ein Support-Chatbot — kein Large Language Model, aber dennoch ein KI-System — eine Trauerfallrabatt-Richtlinie halluziniert hatte, die es gar nicht gab. Der Chatbot teilte dem Kunden selbstbewusst mit, er könne rückwirkend innerhalb von 90 Tagen nach Kauf einen Rabatt beantragen. Die tatsächliche Richtlinie ließ nichts dergleichen zu. Aber das System formulierte es mit einer Autorität, auf die sich der Kunde bei seiner finanziellen Entscheidung verließ. Die zugrundeliegende Technologie unterschied sich von heutigen LLMs, aber die Dynamik war identisch: selbstbewusster KI-Output, unkritische menschliche Akzeptanz.

Im operativen Kontext sind die Fehlermodi subtiler, aber nicht weniger schädlich. Stellen Sie sich einen Vertrag vor, in dem die Zahlungsbedingungen auf Seite 8 und Seite 14 erwähnt werden — und die beiden Seiten unterschiedliche Angaben machen. Ein menschlicher Prüfer würde die Diskrepanz möglicherweise bemerken. Eine KI, die die Zahlungsbedingungen extrahieren soll, wählt eine aus und macht weiter. Sie erwähnt den Konflikt nicht. Sie markiert die Mehrdeutigkeit nicht. Sie füllt die Zelle in Ihrer Tabelle mit „30 Tage netto“ und gibt Ihnen keinen Hinweis darauf, dass Seite 14 „45 Tage netto“ sagt.

Meetingnotizen sind ein weiteres Minenfeld. „Lass uns nächste Woche darauf zurückkommen“ wird in der KI-Zusammenfassung zu einem konkreten Datum mit einem benannten Verantwortlichen — Details, die niemand tatsächlich gesagt hat, die das Modell aber erfunden hat, um einen sauberen, handlungsorientierten Output zu liefern.

Das Muster ist bei Rechnungen, Versicherungsdokumenten, Mietverträgen, Lieferantenbewertungen und CRM-Dateneingabe dasselbe: Überall dort, wo KI eingesetzt wird, um strukturierte Informationen aus unordentlichen Quellen zu extrahieren, arbeitet der Instinkt des Modells, jedes Feld zu füllen, direkt gegen das Bedürfnis des Nutzers zu wissen, welche Felder unsicher sind.

Drei Prompt-Regeln, die den Anreiz verändern

Diese drei Probleme — Trainingsanreize, die Raten belohnen; interne Mechanismen, die Unsicherheitserkennung überschreiben können; und menschliche Psychologie, die selbstbewussten Output ungeprüft akzeptiert — stammen aus verschiedenen Forschungssträngen. Aber sie konvergieren auf dieselbe praktische Schlussfolgerung: Standardmäßig wird KI raten statt Unwissen einzugestehen, und Menschen werden dem Rateergebnis vertrauen.

Sie können die Trainingspipeline nicht reparieren. Sie können die Benchmarks nicht umgestalten. Aber Sie können die lokale Anreizstruktur innerhalb der Konversation verändern. Die folgenden drei Regeln — adaptiert aus einem praktischen Framework von D-Squared — tun genau das. Sie funktionieren, weil sie die Standarddynamik explizit umkehren: Statt Vollständigkeit zu belohnen, belohnen sie Ehrlichkeit über Unsicherheit. Die Wirksamkeit dieser Techniken kann zwischen Modellfamilien variieren — getestet wurden sie primär mit ChatGPT und Claude; andere Modelle könnten unterschiedlich reagieren.

Regel 1: Leerlassen erzwingen + begründen

Die wirkungsvollste Änderung ist, das Modell explizit anzuweisen, Felder leer zu lassen, wenn die Daten mehrdeutig, fehlend oder unklar sind — und zu erklären, warum.

Ohne diese Regel wird jedes Feld gefüllt. Mit dieser Regel produziert das Modell Output wie diesen:

Feld	Wert	Begründung
Zahlungsbedingungen	— LEER	Seite 8 und Seite 14 nennen unterschiedliche Bedingungen — 30 Tage netto vs. 45 Tage netto
Verlängerungsdatum	15. Jan. 2027	—
Haftungsobergrenze	— LEER	Verweist auf „Anlage B“ — nicht im Dokument enthalten

Die leeren Felder sind der eigentliche Mehrwert. Sie zeigen genau, wo Ihre Aufmerksamkeit gebraucht wird. Sie sind das Eingeständnis des Modells: „Ich bin nicht sicher“ — etwas, das es ohne explizite Anweisung nie tun würde.

Der Prompt:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle. Regeln: Extrahiere nur Werte, die im Dokument explizit genannt werden. Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER. Füge eine Spalte „Begründung“ hinzu. Schreibe neben jedes leere Feld eine einzeilige Erklärung, warum du es leer gelassen hast. Stütze jeden Wert auf das, was das Dokument tatsächlich sagt. Zitiere oder referenziere den konkreten Abschnitt, aus dem du ihn entnommen hast.

Eine Möglichkeit zu verstehen, warum das funktioniert, bietet Anthropics Interpretierbarkeitsforschung. Das Modell hat interne Mechanismen zur Erkennung von Unsicherheit — das oben beschriebene Standard-Verweigerungsverhalten. Aber diese Mechanismen werden vom Druck überschrieben, vollständigen, kohärenten Output zu produzieren. Die „Leerlassen erzwingen“-Anweisung gibt dem Unsicherheitspfad möglicherweise die Erlaubnis zu aktivieren, anstatt vom Vervollständigungsinstinkt unterdrückt zu werden. Ob das tatsächlich der interne Mechanismus ist, wissen wir nicht mit Sicherheit — aber das praktische Ergebnis ist konsistent und zuverlässig.

Regel 2: Raten bestrafen

Standardmäßig wiegen aus Sicht des Modells eine falsche Antwort und ein leeres Feld gleich schwer — keines wird gelobt, keines löst Korrektur aus. Das Modell hat keinen Grund, eines dem anderen vorzuziehen, also rät es standardmäßig (was zumindest eine Chance hat, richtig zu sein).

Regel 2 ändert dieses Kalkül mit einem einzigen Satz:

Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

Dies spiegelt die Bewertungsreform wider, die OpenAIs September-2025-Paper auf Benchmark-Ebene fordert. Die Forscher schlagen vor, dass Bewertungssysteme Punkte für korrekte Antworten vergeben, falsche Antworten stärker bestrafen als Enthaltungen und Teilpunkte für angemessene Ausdrücke von Unsicherheit geben sollen. Sie merken an, dass einige standardisierte menschliche Prüfungen diesen Ansatz seit Jahrzehnten verwenden — falsches Raten wird stärker bestraft als ausgelassene Fragen —, genau um blindes Raten zu unterbinden.

Sie können den Benchmark nicht ändern. Aber Sie können dieselbe Anreizstruktur in Ihren Prompt einbauen. Der 3×-Multiplikator ist willkürlich — wählen Sie eine beliebige Zahl, die dem Modell klarmacht, dass Schweigen besser ist als Erfindung. Die entscheidende Erkenntnis: Sie müssen es explizit sagen. Das Modell wird diese Präferenz nicht von selbst ableiten.

Regel 3: Die Quelle zeigen

Selbst Modelle, denen gesagt wird, „nur zu extrahieren“, driften zur Inferenz ab. Sie berechnen ein Verlängerungsdatum aus Startdatum und Laufzeit. Sie schätzen eine Summe aus Einzelposten. Sie leiten eine Kontaktperson aus einer E-Mail-Signatur ab. Das ist nicht unbedingt falsch — aber es ist keine Extraktion, und der Nutzer muss den Unterschied kennen.

Regel 3 verlangt vom Modell, jeden Wert als EXTRAHIERT (direkt im Dokument genannt) oder ABGELEITET (hergeleitet, berechnet oder interpretiert) zu kennzeichnen, mit einer Erklärung für jeden abgeleiteten Wert.

Der Prompt:

Füge für jedes Feld eine Spalte „Quelle“ hinzu. Kennzeichne jeden Wert als: EXTRAHIERT — direkt im Dokument genannt, exakte Übereinstimmung. ABGELEITET — aus dem Kontext hergeleitet, berechnet oder interpretiert. Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu, worauf du dich gestützt hast.

Der Output sieht so aus:

Feld	Wert	Quelle	Beleg
Startdatum	15. Jan. 2025	EXTRAHIERT	Abschnitt 2.1, Absatz 1
Laufzeit	24 Monate	EXTRAHIERT	Abschnitt 2.1, Absatz 2
Verlängerungsdatum	15. Jan. 2027	ABGELEITET	24 Monate ab Startdatum berechnet. Prüfe Abschnitt 8 — Klausel zur vorzeitigen Kündigung könnte dies ändern.

Die EXTRAHIERT/ABGELEITET-Unterscheidung ist eine praktische Umsetzung dessen, was Halluzinationsforschende als „Provenance Tracking“ bezeichnen — jede Behauptung an ihre Quelle zurückbinden. Das Modell ist durchaus in der Lage, diese Unterscheidung zu treffen; es macht sich nur nicht die Mühe, wenn man nicht danach fragt.

Der kombinierte Prompt

Alle drei Regeln wirken zusammen. Hier die vollständige Version:

Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle.

Regeln:

– Extrahiere nur Werte, die im Dokument explizit genannt werden.

– Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER.

– Eine falsche Antwort ist 3× schlimmer als ein leeres Feld. Im Zweifel lass es leer.

– Füge für jedes Feld mit einem Wert eine Spalte „Quelle“ hinzu: EXTRAHIERT = direkt genannt, exakte Übereinstimmung. ABGELEITET = hergeleitet, berechnet oder interpretiert.

– Füge für jedes ABGELEITET-Feld eine einzeilige Erklärung hinzu.

– Füge für jedes LEER-Feld eine Zeile in eine separate „Hinweise“-Tabelle ein, die erklärt, warum der Wert nicht extrahiert werden konnte.

Die Workflow-Änderung, die das ermöglicht, ist erheblich. Statt jeden extrahierten Wert zu überprüfen (was niemand tatsächlich tut), prüfen Sie nur die leeren und die abgeleiteten Felder. Alles, was als EXTRAHIERT mit einer Abschnittsreferenz markiert ist, kann mit höherem Vertrauen behandelt werden. Ihre Aufmerksamkeit geht dahin, wo sie gebraucht wird.

Das größere Bild

Diese drei Regeln sind eine Übergangslösung. Sie funktionieren — manchmal erstaunlich gut —, aber sie arbeiten gegen die Richtung, in die Modelle trainiert werden. Die tiefere Lösung erfordert Veränderungen auf Infrastrukturebene.

OpenAIs Halluzinations-Paper fordert eine Reform der Benchmarks: Bewertungssysteme, die kalibrierte Unsicherheit belohnen statt selbstbewusstes Raten. Anthropics Interpretierbarkeitsforschung weist auf architektonische Erkenntnisse hin — die internen Schaltkreise gut genug zu verstehen, um den „Ich weiß es nicht“-Pfad zu stärken, statt sich auf Prompt-Patches zu verlassen.

Die vielleicht strukturell vielversprechendste Richtung ist OpenAIs „Confessions„-Forschung (2025). Statt sich darauf zu verlassen, dass Nutzer Ehrlichkeit per Prompt erzwingen, trennt der Confessions-Ansatz das Ehrlichkeitsziel vom Leistungsziel bereits im Training. Nachdem das Modell eine Hauptantwort produziert hat — optimiert auf all die üblichen Faktoren wie Korrektheit, Stil und Hilfsbereitschaft — erstellt es einen separaten „Beichtbericht“. Dieser Bericht wird ausschließlich auf Ehrlichkeit bewertet: Hat das Modell seine Unsicherheiten markiert? Hat es zugegeben, wo es Abkürzungen genommen hat? Entscheidend: Nichts im Beichtbericht wird gegen den Score der Hauptantwort verwendet, sodass das Modell keinen Anreiz hat, seine Zweifel zu verbergen. Wenn dieser Ansatz skaliert, könnte er das Ehrlichkeitsproblem von etwas, das Nutzer per Prompt-Engineering umgehen müssen, zu etwas machen, das das Modell nativ handhabt.

Das sind vielversprechende Richtungen, aber keine davon steht Ihnen heute zur Verfügung. Was Ihnen zur Verfügung steht, ist die Möglichkeit, die lokale Anreizstruktur in Ihren Prompts zu verändern. Leere erzwingen. Raten bestrafen. Quellenangaben verlangen. Diese drei Regeln machen KI nicht von Natur aus ehrlich, aber sie schaffen eine Umgebung, in der Ehrlichkeit der Weg des geringsten Widerstands ist — und das erweist sich als überraschend wirksam.

Die Modelle sind schlau genug zu wissen, wann sie raten. Sie brauchen nur die Erlaubnis, es zu sagen.

Quellen und weiterführende Lektüre

OpenAI (September 2025): „Why Language Models Hallucinate.“ Forschungspapier, das argumentiert, dass Standard-Trainings- und Evaluierungsverfahren Raten statt Eingestehen von Unsicherheit belohnen.
OpenAI (2025): „How Confessions Can Keep Language Models Honest.“ Forschung zum Training von Modellen, die separate Ehrlichkeitsberichte erstellen, unabhängig von der Hauptantwort bewertet.
Anthropic (März 2025): „Tracing the Thoughts of a Large Language Model.“ Interpretierbarkeitsforschung, die interne Schaltkreise für Verweigerung, Entitätserkennung und Halluzination in Claude 3.5 Haiku aufdeckt.
Anthropic (März 2025): „On the Biology of a Large Language Model.“ Begleitpaper zu Circuit Tracing und Attribution Graphs.
Carnat, I. (November 2024): „Human, All Too Human: Accounting for Automation Bias in Generative Large Language Models.“ International Data Privacy Law, Bd. 14, Heft 4, S. 299–314.
Qazi, I.A. et al. (August 2025): „Automation Bias in LLM Assisted Diagnostic Reasoning Among AI-Trained Physicians.“ Randomisierte klinische Studie, medRxiv-Preprint.
AI & Society (Juli 2025): „Exploring Automation Bias in Human–AI Collaboration.“ Systematisches Review von 35 Studien.
D-Squared (2025): „ChatGPT and Claude Got Smarter. Not More Honest.“ Original-Slide-Deck mit den drei Prompt-Regeln.