Schlagwort: 3RulesPart4

3 Prompt AI Series #4: Kalibrierung, Governance und Trade-offs

Das Drei-Regeln-Framework umsetzen: Kalibrierung, Governance und Trade-offs

Der vorherige Beitrag dieser Serie hat ein allgemeines Framework für KI-gestützte Szenarioplanung vorgestellt: Leerlassen erzwingen, Raten bestrafen, Quelle zeigen. Das Framework produziert Output, in dem jede Behauptung als VERIFIZIERT, ANGENOMMEN oder PROJIZIERT getaggt ist und Lücken explizit markiert statt stillschweigend gefüllt werden.

Das war das Was. Dieser Beitrag handelt vom Wie — drei praktische Herausforderungen, denen jeder begegnet, der das Framework umsetzt:

  1. Kalibrierung: Sie haben etwas als ANGENOMMEN getaggt. Wie prüfen Sie, ob die Annahme vernünftig ist?
  2. Governance: Wie setzen Organisationen Tagging in tatsächlichen Workflows durch — nicht nur im Prompt einer einzelnen Person?
  3. Trade-offs: Erzeugt das ganze Tagging nicht kognitive Überlastung? Wie lesen Nicht-Experten ein Dokument voller Provenance-Labels?

1. Annahmen kalibrieren: Von „getaggt“ zu „geprüft“

Eine Annahme zu taggen ist notwendig, aber nicht hinreichend. (ANGENOMMEN: Markt wächst 15 % jährlich) ist besser als ein unmarkiertes 15 %, das in die Projektion eingebaut ist — aber es sagt Ihnen nicht, ob 15 % vertretbar sind. Das Framework legt Annahmen offen; Kalibrierung prüft sie.

Vier Kalibrierungsmethoden funktionieren gut mit dem getaggten Output:

Reference Class Forecasting: Die Außenperspektive

Daniel Kahnemans und Amos Tverskys Unterscheidung zwischen der „Innenperspektive“ (Planung basierend auf den Spezifika dieses Projekts) und der „Außenperspektive“ (was bei vergleichbaren Projekten historisch passiert ist) ist das nützlichste Einzelkonzept zur Kalibrierung von Annahmen. Die Planungsfehler-Tendenz — systematisches Unterschätzen von Kosten und Zeitplänen — ist so gut dokumentiert, dass die American Planning Association Reference Class Forecasting 2005 offiziell empfohlen hat.

In der Praxis bedeutet das: Für jeden ANGENOMMEN-Tag fragen Sie das Modell (oder sich selbst), 3–5 vergleichbare Situationen und deren tatsächliche Ergebnisse zu identifizieren. Wenn Sie 15 % Wachstum annehmen, welches Wachstum haben ähnliche Produkte in ähnlichen Märkten tatsächlich erzielt? Wenn Sie einen 6-monatigen Genehmigungszeitraum annehmen, wie lange haben vergleichbare Genehmigungen tatsächlich gedauert?

Sie können das sogar in den Prompt einbauen:

Füge für jeden ANGENOMMEN-Tag eine „Kalibrierung“ hinzu: Identifiziere 2–3 vergleichbare historische Fälle und deren tatsächliche Ergebnisse. Falls keine vergleichbaren Daten existieren, vermerke [KEINE REFERENZKLASSE].

Sensitivitätstest: Was bricht, wenn das falsch ist?

Nicht alle Annahmen sind gleich wichtig. RANDs Assumption-Based Planning nennt das „Kritikalität“ — eine Annahme ist kritisch, wenn ihr Scheitern grundlegende Änderungen am Plan erfordern würde. In der Praxis heißt das testen: Was passiert mit der Schlussfolgerung, wenn diese Annahme um 50 % danebenliegt? Wenn die Antwort „nicht viel“ ist, hat die Annahme niedrige Priorität. Wenn die Antwort „der gesamte Business Case bricht zusammen“ ist, ist das Ihr Validierungsziel mit höchster Priorität.

Das getaggte Format ermöglicht das direkt. Sie können das Modell fragen:

Nimm die drei ANGENOMMEN-Positionen mit dem höchsten Einfluss auf die Endprojektion. Berechne für jede die Projektion neu mit der Annahme bei 50 % des angegebenen Werts und bei 150 %. Zeige mir, für welche Annahmen die Schlussfolgerung am empfindlichsten ist.

Pre-Mortem: Stell dir vor, es ist gescheitert

Gary Kleins Pre-Mortem-Technik kehrt die Frage um: Statt „Wird das funktionieren?“ zu fragen, startet man mit „Es ist gescheitert — warum?“ Das ist besonders wirksam für ANGENOMMEN-Tags, weil es Fehlermodi sichtbar macht, die Optimismus verbirgt:

Nimm an, dieses Szenario ist nach 12 Monaten gescheitert. Welche der ANGENOMMEN-Positionen waren am wahrscheinlichsten der Punkt des Scheiterns? Beschreibe für jede ein plausibles Narrativ, wie diese Annahme zusammengebrochen ist.

Zeitlicher Verfall: Wann verfällt die Annahme?

Annahmen haben ein Haltbarkeitsdatum. Eine Marktgrößenschätzung aus einem Gartner-Bericht von 2025 ist 2026 noch vertretbar. Eine Wettbewerbs-Landschafts-Annahme von 2024 könnte bereits falsch sein. Eine zeitliche Dimension zu ANGENOMMEN-Tags hinzuzufügen hilft:

Füge für jeden ANGENOMMEN-Tag eine Verfallsschätzung hinzu: Wie lange ist diese Annahme voraussichtlich gültig? Markiere alles, was älter als 12 Monate ist oder auf Daten vor 2025 basiert, als [VERALTETE ANNAHME].


2. Governance: Das Framework über eine einzelne Person hinaus verankern

Das Framework funktioniert gut, wenn eine Person es in einer Chat-Session nutzt. Die Governance-Frage ist: Wie übersteht es den Kontakt mit einer Organisation — mehrere Personen, mehrere KI-Tools, mehrere Dokumente, über Monate?

Das Problem: Tags gehen in der Übersetzung verloren

Was typischerweise passiert: Ein Analyst erstellt ein schön getaggtes Szenario. Er kopiert es in eine Folienpräsentation. Die Tags verschwinden. Ein Manager liest die Folien, sieht „Umsatz Jahr 1: 310K €“ ohne jeden Hinweis, dass die Zahl PROJIZIERT ist aus zwei nicht validierten ANGENOMMEN-Inputs. Das Geisterszenario lebt wieder.

Das ist ein Wissensmanagement-Problem, kein KI-Problem. Und es hat Wissensmanagement-Lösungen.

Stufe 1: Template-Pflicht

Der einfachste Governance-Mechanismus ist ein Template. Wenn Ihre Organisation KI für Szenarioplanung nutzt, sollte das Output-Template Provenance-Spalten fest eingebaut haben. Nicht optional, nicht „bei Bedarf hinzufügen“ — strukturell erforderlich. Ein Szenario-Dokument ohne Quellen-Tags sollte genauso behandelt werden wie ein Finanzbericht ohne Belege: unvollständig.

Konkret: Erstellen Sie ein Standardtabellenformat für alle KI-gestützten Szenario-Outputs:

Variable Wert Quelle Basis / Falls falsch Geprüft von Datum
(Alle KI-generierten Szenario-Outputs müssen dieses Format verwenden)

Die Spalten „Geprüft von“ und „Datum“ sind die Governance-Ergänzungen. Sie machen aus einer Prompt-Technik eine Prüfspur. Jemand muss jede ANGENOMMEN-Position abzeichnen, bevor sie in die Planung eingeht.

Stufe 2: Review-Workflow

Für Organisationen mit strukturierteren Prozessen integrieren Sie das Tagging in den Review-Zyklus:

Schritt 1 — Generierung: KI produziert getaggten Output mit dem Drei-Regeln-Prompt.
Schritt 2 — Annahmen-Review: Ein Fachexperte prüft alle ANGENOMMEN- und PROJIZIERT-Positionen. Jede bekommt eine von drei Dispositionen: bestätigt (wird zu VERIFIZIERT umklassifiziert), hinterfragt (zur Kalibrierung geschickt) oder mit Risiko akzeptiert (bleibt als ANGENOMMEN mit dokumentierter Begründung).
Schritt 3 — Lücken-Triage: Alle DATENLÜCKE- und ANNAHMELÜCKE-Positionen werden triagiert: auflösbar (jemandem zuweisen, die Daten zu finden), irreduzibel (die Unsicherheit ist inhärent — dokumentieren und drum herumplanen) oder zurückgestellt (für diese Entscheidungsphase nicht nötig).
Schritt 4 — Entscheidungspaket: Das finale Dokument trennt „was wir wissen“ (VERIFIZIERT), „was wir glauben“ (ANGENOMMEN, mit Kalibrierungsnotizen) und „was wir nicht wissen“ (verbleibende Lücken). Entscheidungsträger sehen alle drei.

Stufe 3: System-Prompt-Standardisierung

Wenn Ihre Organisation KI teamübergreifend nutzt, standardisieren Sie den System-Prompt. Verlassen Sie sich nicht darauf, dass einzelne Analysten sich daran erinnern, die drei Regeln anzuwenden. Verankern Sie das Framework in jedem KI-Zugangspunkt — ob Claude-Projekt, Custom GPT, API-Wrapper oder n8n-Workflow. Der Prompt wird Infrastruktur, nicht persönliche Praxis.

Die kulturelle Herausforderung

Das schwierigste Governance-Problem ist nicht technisch. Es ist, dass Unsicherheit zu taggen sich nach Schwäche anfühlt. Ein Szenario voller ANGENOMMEN- und DATENLÜCKE-Labels einem Vorstand zu präsentieren wirkt weniger überzeugend als saubere Zahlen. Die organisationale Antwort darauf muss explizit sein: Ein getaggtes Szenario ist kein unvollständiges Szenario — es ist ein ehrliches. Die sauberen Zahlen waren nie sauber; sie haben nur versteckt, wo die Vermutungen waren.

Genau das zeigt Bent Flyvbjergs jahrzehntelange Forschung zu Großprojekt-Fehlschlägen: Die Projekte, die am katastrophalsten das Budget sprengten, waren nicht die mit der meisten Unsicherheit — es waren die, bei denen die Unsicherheit versteckt war. Transparenz über Annahmen ist eine Risikoreduktionsstrategie, kein Eingeständnis von Schwäche.


3. Trade-offs: Wenn Tags zu Rauschen werden

Ein Dokument, in dem jeder Satz ein Provenance-Label trägt, ist anstrengend zu lesen. Das Framework erzeugt realen kognitiven Overhead, und so zu tun als wäre das nicht so, wäre unehrlich. Die Frage ist nicht, ob es Kosten gibt — die gibt es —, sondern wie man sie steuert.

Das Überlastungsproblem

Stellen Sie sich ein 20-Variablen-Szenario vor mit Quellen-Tags, Kalibrierungsnotizen und „Falls falsch“-Anmerkungen an jeder ANGENOMMEN-Position. Für den Analysten, der es erstellt hat, ist das wertvoll — er sieht genau, wohin er seine Aufmerksamkeit richten muss. Für die Führungskraft, die darauf basierend entscheiden muss, ist es eine Wand von Einschränkungen, die das Ergebnis verdeckt.

Beide Perspektiven sind berechtigt. Die Lösung ist nicht, sich für eine zu entscheiden — sondern beide mit verschiedenen Sichten auf dieselben zugrundeliegenden Daten zu bedienen.

Lösung: Geschichtete Darstellung

Das getaggte Szenario sollte in mindestens zwei Schichten existieren:

Schicht 1 — Entscheidungszusammenfassung: Eine Seite. Kernschlüsse, Kernzahlen, Kernrisiken. Keine Tags im laufenden Text. Stattdessen ein einzelner Abschnitt „Konfidenzprofil“ am Ende:

Dieses Szenario stützt sich auf 14 verifizierte Datenpunkte, 6 genannte Annahmen und 3 Projektionen. Zwei Datenlücken sind ungelöst (marktspezifischer CAC, regulatorischer Zeitplan). Die Annahme mit dem höchsten Einfluss auf nachgelagerte Ergebnisse ist [X] — bei 50 % Abweichung verschiebt sich der projizierte Umsatz von 310K € auf 180K €.

Das ist die Führungskräfte-Sicht: Wie viel davon ist solide, wie viel ist unsicher, und was konkret könnte es zum Kippen bringen.

Schicht 2 — Vollständige getaggte Analyse: Der komplette Output mit allen Provenance-Tags, Kalibrierungsnotizen, Lücken-Labels und Sensitivitätsanalyse. Das ist das Arbeitsdokument. Der Analyst nutzt es, der Reviewer zeichnet es ab, und es wird archiviert. Es ist die Prüfspur.

Die Beziehung zwischen den Schichten ist wie die zwischen einem Jahresabschluss und seinen Fußnoten. Der Abschluss zeigt die Zahlen; die Fußnoten zeigen, worauf die Zahlen ruhen. Beides existiert. Verschiedene Leser nutzen verschiedene Schichten.

Wie Nicht-Experten Tags lesen

Für Teams, in denen nicht jeder das Tagging-System beherrscht, vereinfachen Sie die visuelle Sprache. Drei Farben funktionieren besser als drei Akronyme:

  • VERIFIZIERT → als normaler Text dargestellt (keine besondere Markierung nötig — es ist die Baseline)
  • ANGENOMMEN → hervorgehoben oder mit einem visuellen Signal markiert (z. B. kursiv, farbige Seitenleiste oder ein einfaches ⚠-Symbol)
  • DATENLÜCKE → als explizite Leerstelle mit kurzem Hinweis

Die Kernbotschaft, die Nicht-Experten verinnerlichen müssen, ist einfach: Unmarkierter Text ist fundiert; markierter Text ist unsicher; Leerstellen sind ehrlich. Das ist ein Zehn-Sekunden-Briefing. Wer eine Wettervorhersage lesen kann, die „aktuelle Temperatur“ von „Morgenprognose“ unterscheidet, kann ein getaggtes Szenario lesen.

Wann weniger Tags reichen

Nicht jeder Anwendungsfall braucht volle Provenance. Der richtige Tagging-Grad hängt von den Einsätzen ab:

Einsatz Tagging-Grad Beispiel
Niedrig Nur Lücken taggen Internes Brainstorming, frühe Ideenfindung
Mittel Lücken + Annahmen taggen Projektvorschläge, Budget-Entwürfe, Team-Planung
Hoch Volles Tagging + Kalibrierung Vorstandspräsentationen, Investitionsentscheidungen, regulatorische Einreichungen

Bei einem lockeren Strategie-Brainstorming VERIFIZIERT/ANGENOMMEN/PROJIZIERT auf jede Zeile zu verlangen, würde den kreativen Fluss töten. Bei einer 2-Millionen-Euro-Investitionsentscheidung für den Vorstand ist alles unter vollem Tagging unverantwortlich. Passen Sie die Intensität des Frameworks an die Konsequenzen der Entscheidung an.


Das Framework-Reifegradmodell

Zusammengenommen können Organisationen, die das Drei-Regeln-Framework einführen, die Umsetzung in drei Stufen denken:

Stufe 1 — Individuelle Praxis: Eine Person nutzt den Drei-Regeln-Prompt in ihren eigenen KI-Gesprächen. Getaggter Output bleibt in ihrem Workspace. Nutzen: persönliche Qualitätskontrolle. Kosten: nahezu null.

Stufe 2 — Team-Standard: Der Prompt wird in gemeinsame KI-Workspaces eingebettet (Claude-Projekte, Custom GPTs). Templates erzwingen das Tabellenformat. Annahmen bekommen informelles Peer-Review. Nutzen: gleichbleibende Qualität im Team. Kosten: Template-Erstellung, kurzes Training.

Stufe 3 — Organisationale Governance: Das Framework wird in Planungsprozesse integriert. Annahmen-Review ist ein formaler Workflow-Schritt. Kalibrierung (Referenzklasse, Sensitivität, Pre-Mortem) ist Standardpraxis. Entscheidungspakete trennen Konfidenzschichten. Nutzen: systematische Risikoreduktion. Kosten: Prozessänderung, kultureller Wandel.

Die meisten Teams sollten bei Stufe 1 beginnen und sofort Ergebnisse sehen. Ob man zu Stufe 2 oder 3 fortschreitet, hängt davon ab, wie viel auf dem Spiel steht, wenn KI-generierte Szenarien reale Entscheidungen informieren. Je höher die Einsätze, desto mehr zahlt sich die Governance-Investition aus.


Limitierungen und bekannte Lücken

Das Drei-Regeln-Framework ist ein Praktiker-Muster, keine peer-reviewte Methode. Es verdient dieselbe kritische Prüfung, die es Nutzer auf KI-Output anwenden lässt. Hier sind die Dinge, die es nicht löst — und die Wege, auf denen es missbraucht werden kann.

1. Nicht empirisch validiert

Es gibt keine kontrollierten Experimente, keine Vorher/Nachher-Fehlerratenmessungen und keine Nutzerstudien hinter diesem Framework. Forschung zeigt, dass Provenance-Tagging und strukturiertes Prompting Halluzinationen reduzieren können — manchmal erheblich —, aber das wurde für spezifische Tagging-Schemata unter kontrollierten Bedingungen nachgewiesen, nicht für das exakte VERIFIZIERT/ANGENOMMEN/PROJIZIERT-Muster, das hier vorgeschlagen wird. Behandeln Sie das Framework als eine Engineering-Heuristik, die in vielen Fällen wahrscheinlich hilft, nicht als etwas, dessen Wirksamkeit Sie ohne eigene Messung voraussetzen können. Wenn Sie es einführen, verfolgen Sie, ob es Ihre Outputs tatsächlich verbessert.

2. Der Prompt ist ein Hebel, nicht der einzige

Das Framework stützt sich stark auf Prompt-Design als primären Mechanismus zur Steuerung des Modellverhaltens. In der Praxis können Prompts Halluzinationen reduzieren, aber Modelle verletzen Anweisungen dennoch unter Druck — besonders wenn Optimierung, Reward-Modelle oder Fine-Tuning auf Sprachfluss und Vollständigkeit drängen. Für Produktionssysteme sollten Prompt-Regeln durch architektonische Kontrollen ergänzt werden: Retrieval-Augmented Generation (RAG) zur Verankerung von Outputs in tatsächlichen Daten, regelbasierte Filter zum Abfangen unbelegter Aussagen, Enthaltungsmechanismen, die die Generierung verweigern, wenn die Konfidenz niedrig ist, und menschliche Review-Workflows. Der Prompt ist der nutzer-zugängliche Hebel. Er ist nicht der einzige, und in Hochrisiko-Deployments ist es fragil, sich allein darauf zu verlassen.

3. VERIFIZIERT bedeutet „belegt“, nicht „unfehlbar“

Die Tag-Hierarchie des Frameworks impliziert einen Konfidenz-Gradienten: VERIFIZIERT = solide, ANGENOMMEN = fragil, PROJIZIERT = abgeleitet. Aber „verifizierte“ Daten können selbst erhebliche Probleme enthalten. Historische Zahlen können Messfehler widerspiegeln. Marktdaten können Anbieter-Annahmen oder Stichprobenverzerrungen kodieren. Finanz-Ist-Werte können nicht-stationär sein — eine Q4-2024-Umsatzzahl kann für Q4-2026-Projektionen in einem Post-Schock-Markt irreführend sein. Das Framework verfolgt Provenance (woher kommt diese Zahl?), nicht Qualität (ist diese Zahl noch ein zuverlässiger Leitfaden?). Nutzer sollten der Versuchung widerstehen, VERIFIZIERT als „gesichert“ zu behandeln. Datenfundamentalismus — die Annahme, dass belegte Daten korrekte Daten sind — ist ein anderer Fehlermodus als Halluzination, kann aber gleichermaßen schlechte Entscheidungen antreiben.

4. Tags legen Inputs offen, nicht strukturelle Validität

Ein Szenario kann perfekt getaggt sein — jede Zahl belegt, jede Annahme markiert, jede Lücke gekennzeichnet — und dennoch fundamental irreführend sein, weil das zugrundeliegende Kausalmodell falsch ist. Kundenabwanderung als preisunabhängig behandeln. Rückkopplungsschleifen zwischen Marketingausgaben und Markenwahrnehmung ignorieren. Lineare Skalierung annehmen, wo die realen Dynamiken nichtlinear sind. Das Framework fängt faktische Halluzinationen (falsche Inputs) ab, aber nicht strukturelle Fehler (falsches Modell davon, wie die Inputs zusammenhängen). Die Kalibrierungsmethoden — Sensitivitätstest, Pre-Mortem — helfen teilweise, testen Annahmen aber isoliert, nicht die Beziehungen zwischen ihnen. ABP- und Szenarioplanungs-Literatur betonen strukturelles Denken und die Exploration alternativer Logiken. Dieses Framework fokussiert auf Tagging und Lückenmarkierung, nicht auf die Qualität des mentalen Modells. Ein gut getaggtes schlechtes Modell ist immer noch ein schlechtes Modell.

5. Labels legen nicht offen, wessen Annahmen kodiert werden

Die Kategorien VERIFIZIERT/ANGENOMMEN/PROJIZIERT können einen Anschein von Objektivität vermitteln, der Machtdynamiken verbirgt. Management kann optimistische Wachstumsziele als ANGENOMMEN kodieren, ohne den politischen Druck hinter der Zahl offenzulegen. Die Marktgrößenschätzung eines Anbieters, als VERIFIZIERT getaggt, kann dessen kommerzielle Interessen einbetten. Die PROJIZIERT-Berechnung eines Analysten kann ein Modell verwenden, das institutionelle Voreingenommenheit zugunsten bestimmter Ergebnisse widerspiegelt. Das Framework verlangt weder vom Modell noch vom Menschen offenzulegen, wessen Annahmen kodiert werden oder wie sie entstanden sind. Die Frage ist nicht nur „ist das belegt oder angenommen?“, sondern „wessen Interessen haben diese Annahme geformt?“ Das Framework beantwortet diese Frage nicht — und zu behaupten, es tue es, wäre eine Form derselben falschen Zuversicht, die es verhindern soll.

6. Zu viele Lücken können Entscheidungen lähmen

Das Framework bestraft Raten explizit und ermutigt das Modell, bei jeder Gelegenheit [DATENLÜCKE] und [ANNAHMELÜCKE] zu markieren. In Hochunsicherheits-Domänen — was die meiste strategische Planung betrifft — kann das zu Outputs führen, die von Lücken und Vorbehalten dominiert werden. ABP-Literatur betont, dass manche Annahmen „für Planungszwecke“ gemacht werden müssen, oder Planung kann nicht fortschreiten. Die Stakes-basierte Skalierungstabelle weiter oben adressiert dies teilweise, aber die zugrundeliegende Spannung bleibt: Das Framework fördert eine Norm, in der „stille Erfindung schlimmer ist als markierte Unsicherheit“, ohne explizit zu diskutieren, wann zu viel Unsicherheitssignalisierung die Entscheidungsfindung untergräbt. Passen Sie die Intensität des Frameworks nicht nur an die Entscheidungseinsätze an, sondern auch an die Risikobereitschaft und Entscheidungszeitpläne der Organisation.

7. Domänenspezifische Anpassung erforderlich

Die Serie behauptet, das Framework sei domänenübergreifend portabel — Dokumentextraktion, Worldbuilding, Szenarioplanung, Cybersecurity, wissenschaftliches Arbeiten. Aber diese Domänen haben sehr unterschiedliche Einsätze, epistemische Strukturen und regulatorische Umgebungen. In der Medizin ist etwas als ANGENOMMEN zu taggen bei Weitem nicht ausreichend, um es sicher zu machen — existierende Richtlinien erfordern RAG, externe Verifikation und menschliche Aufsicht. In der juristischen Arbeit kann ein individuelles Label-Schema mit etablierten Zitationsstandards kollidieren oder von Gerichten fehlinterpretiert werden. In regulierten Branchen können Compliance-Frameworks eigene Provenance-Anforderungen haben. Das allgemeine Muster bietet eine Ausgangsstruktur; domänenspezifische Anpassung und Validierung sind erforderlich, bevor man sich in regulierten oder Hochrisiko-Umgebungen darauf verlässt.

Diese Limitierungen entkräften das Framework nicht — sie begrenzen es. Die drei Regeln sind eine erhebliche Verbesserung gegenüber dem Default (keine Provenance, keine Lückenmarkierung, keine Bestrafung für Raten), aber sie sind keine vollständige Lösung. Sie sind der Beginn einer Praxis, nicht ihr Ende.


Quellen und weiterführende Lektüre