{"id":191,"date":"2026-03-31T17:47:57","date_gmt":"2026-03-31T16:47:57","guid":{"rendered":"https:\/\/knowtech.waszmann.com\/?p=191"},"modified":"2026-04-17T06:16:35","modified_gmt":"2026-04-17T05:16:35","slug":"drei-prompt-regeln-die-ki-davon-abhalten-zu-raten-und-die-wissenschaft-dahinter","status":"publish","type":"post","link":"https:\/\/knowtech.waszmann.com\/?p=191&lang=de","title":{"rendered":"Drei Prompt-Regeln, die KI davon abhalten zu raten \u2014 und die Wissenschaft dahinter"},"content":{"rendered":"<p>Jede neue Modellgeneration wird mit gro\u00dfem Tamtam angek\u00fcndigt: bessere Benchmarks, h\u00f6here Genauigkeitswerte, beeindruckendere Demos. GPT-5 l\u00f6st komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verbl\u00fcffender Leichtigkeit. Die Intelligenzkurve steigt und steigt.<\/p>\n<p>Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft \u2014 die Ehrlichkeitskurve. Und die hat sich kaum bewegt.<\/p>\n<p>Das ist keine vage philosophische Klage. Es ist ein strukturelles Problem, das in Training, Evaluierung und Einsatz dieser Modelle fest eingebaut ist. Und es trifft genau die Arbeit am h\u00e4rtesten, bei der Menschen zunehmend auf KI setzen: Daten aus Vertr\u00e4gen extrahieren, Rechnungen auswerten, Meetingnotizen zusammenfassen, CRM-Eintr\u00e4ge aus unstrukturierten Quellen erstellen.<\/p>\n<p>Dieser Beitrag erkl\u00e4rt, warum die L\u00fccke zwischen Intelligenz und Ehrlichkeit existiert, was die aktuelle Forschung \u00fcber ihre Ursachen sagt \u2014 und vor allem: drei Prompt-Regeln, die Sie heute anwenden k\u00f6nnen, um KI dazu zu bringen, ehrlich zuzugeben, was sie nicht wei\u00df.<\/p>\n<hr \/>\n<h2>Die L\u00fccke: Intelligenz vs. Ehrlichkeit<\/h2>\n<p>Wenn wir sagen, ein Modell sei \u201eschlauer geworden&#8221;, meinen wir in der Regel, dass es bei Benchmarks besser abschneidet \u2014 Mathematik-Wettbewerbe, Programmieraufgaben, mehrstufige Denkaufgaben. Das sind reale Verbesserungen. Aber Benchmark-Ergebnisse messen die F\u00e4higkeit eines Modells, korrekte Antworten zu geben. Sie messen nicht seine Bereitschaft, \u201eIch wei\u00df es nicht&#8221; zu sagen.<\/p>\n<p>Tats\u00e4chlich bestraft die Anreizstruktur Ehrlichkeit sogar aktiv.<\/p>\n<p>Im September 2025 ver\u00f6ffentlichte OpenAI ein\u00a0<a href=\"https:\/\/openai.com\/index\/why-language-models-hallucinate\/\" target=\"_blank\" rel=\"noopener\">Forschungspapier<\/a>, das dieses Problem pr\u00e4zise beschreibt. Das Team \u2014 darunter Forscher vom Georgia Institute of Technology \u2014 untersuchte gro\u00dfe KI-Benchmarks und stellte fest, dass die \u00fcberwiegende Mehrheit bin\u00e4re Bewertung verwendet: Entweder die Antwort ist korrekt und bekommt einen Punkt, oder sie ist falsch und bekommt null. Entscheidend: Auch die Enthaltung \u2014 also \u201eIch wei\u00df es nicht&#8221; zu sagen \u2014 bekommt null. Die mathematische Konsequenz ist eindeutig: Raten erzielt immer einen h\u00f6heren erwarteten Score als Enthaltung. Ein Modell, das bei jeder unsicheren Frage blufft, wird h\u00f6her eingestuft als eines, das ehrlich ablehnt.<\/p>\n<p>OpenAIs eigener Blogpost formulierte es anschaulich: Die Situation gleicht einem Multiple-Choice-Test, bei dem eine leere Antwort garantiert null Punkte gibt, aber Raten zumindest eine Chance bietet. Unter diesen Regeln ist die rationale Strategie, immer zu raten \u2014 auch wenn man keine Ahnung hat. Und genau das lernen die Modelle.<\/p>\n<p>Das Paper demonstrierte dies mit einem eindr\u00fccklichen Beispiel: Nach dem Titel der Doktorarbeit eines seiner eigenen Co-Autoren gefragt, produzierte ein weit verbreitetes Modell bei drei Versuchen drei verschiedene Titel mit voller \u00dcberzeugung. Alle drei waren falsch. Dasselbe passierte mit seinem Geburtstag \u2014 drei Daten, alle falsch, alle mit unersch\u00fctterlicher Zuversicht vorgetragen.<\/p>\n<p>Das ist kein Bug, der gepatcht werden kann. Es ist das nat\u00fcrliche Ergebnis der Optimierung auf reine Genauigkeitsmetriken. Wie die OpenAI-Forscher argumentieren, m\u00fcssen die g\u00e4ngigen Benchmarks und Leaderboards so umgestaltet werden, dass sie selbstsichere Fehler st\u00e4rker bestrafen als Unsicherheit. Bis dahin wird jedes Modell, das im Leaderboard aufsteigt, dies teilweise dadurch schaffen, dass es besser blufft.<\/p>\n<hr \/>\n<h2>Warum Modelle konfabulieren: Erkenntnisse aus der Interpretierbarkeitsforschung<\/h2>\n<p>Das OpenAI-Paper erkl\u00e4rt das\u00a0<em>Anreizproblem<\/em>. Aber was passiert mechanisch im Inneren des Modells, wenn es etwas erfindet?<\/p>\n<p>Anthropics Interpretierbarkeitsforschung \u2014 im M\u00e4rz 2025 unter dem Titel \u201e<a href=\"https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model\" target=\"_blank\" rel=\"noopener\">Tracing the Thoughts of a Large Language Model<\/a>&#8221; ver\u00f6ffentlicht \u2014 liefert einige der detailliertesten Antworten, die wir haben. Mit etwas, das sie als \u201eMikroskop&#8221; f\u00fcr KI beschreiben, verfolgten Anthropics Forscher die internen Schaltkreise, die aktiviert werden, wenn Claude eine Frage verarbeitet. Dabei ist anzumerken, dass diese Erkenntnisse spezifisch f\u00fcr Claude 3.5 Haiku sind \u2014 andere Modellfamilien k\u00f6nnten Unsicherheit \u00fcber andere interne Mechanismen handhaben \u2014 aber die Muster sind vermutlich allgemein genug, um instruktiv zu sein.<\/p>\n<p>Eine ihrer aufschlussreichsten Entdeckungen betrifft etwas, das man als Default-Verweigerungs-Mechanismus bezeichnen k\u00f6nnte. Bei Claude ist die Verweigerung einer Antwort tats\u00e4chlich das\u00a0<em>Standardverhalten<\/em>: Die Forscher fanden einen Schaltkreis, der standardm\u00e4\u00dfig aktiviert ist und das Modell veranlasst, mitzuteilen, dass es nicht genug Informationen hat. Aber wenn das Modell eine \u201ebekannte Entit\u00e4t&#8221; erkennt \u2014 etwa Michael Jordan den Basketballspieler \u2014 feuert ein konkurrierender Satz von Features und\u00a0<em>unterdr\u00fcckt<\/em>\u00a0diesen Standard-Schaltkreis, sodass das Modell antworten kann.<\/p>\n<p>Das Problem entsteht, wenn dieser Mechanismus fehlz\u00fcndet. Wenn das Modell einen Namen erkennt, aber die relevanten Fakten nicht kennt, kann das \u201ebekannte Entit\u00e4t&#8221;-Signal trotzdem den \u201eIch wei\u00df es nicht&#8221;-Schaltkreis \u00fcberschreiben. Das Ergebnis: eine selbstbewusste, detaillierte, komplett erfundene Antwort. In einem Experiment verwendeten die Forscher eine Person namens Michael Batkin \u2014 jemanden, der dem Modell unbekannt war und standardm\u00e4\u00dfig eine Verweigerung ausl\u00f6ste. Als sie aber k\u00fcnstlich die \u201ebekannte Entit\u00e4t&#8221;-Features aktivierten oder die \u201eKann nicht antworten&#8221;-Features unterdr\u00fcckten, halluzinierte Claude prompt \u2014 und konsistent \u2014, dass Batkin ber\u00fchmt sei f\u00fcrs Schachspielen.<\/p>\n<p>Noch beunruhigender: Anthropic fand Belege daf\u00fcr, dass Claude, wenn es eine Antwort nicht leicht berechnen kann (etwa den Kosinus einer gro\u00dfen Zahl), sich manchmal in etwas engagiert, was der Philosoph Harry Frankfurt als\u00a0<em>Bullshitting<\/em>\u00a0bezeichnen w\u00fcrde \u2014 eine Antwort produzieren, ohne dass intern irgendein Beleg f\u00fcr eine tats\u00e4chliche Berechnung vorliegt. Obwohl das Modell behauptete, gerechnet zu haben, zeigten die Interpretierbarkeits-Tools keine Spur einer Berechnung. Wenn man ihm einen Hinweis auf die erwartete Antwort gab, arbeitete Claude\u00a0<em>r\u00fcckw\u00e4rts<\/em>\u00a0und konstruierte plausibel aussehende Zwischenschritte, die zum vorgegebenen Ergebnis f\u00fchren \u2014 ein Lehrbuchbeispiel f\u00fcr motiviertes Denken.<\/p>\n<p>Diese Erkenntnisse sind wichtig, weil sie zeigen, dass das Ehrlichkeitsproblem nicht nur eine Frage der Trainingsanreize ist. Die Modelle haben interne Mechanismen, die Unsicherheit\u00a0<em>eigentlich<\/em>\u00a0erkennen sollen \u2014 aber diese Mechanismen k\u00f6nnen von anderen Kr\u00e4ften \u00fcberschrieben werden, darunter der Drang nach grammatikalischer Koh\u00e4renz und der Pattern-Matching-Instinkt, L\u00fccken zu f\u00fcllen.<\/p>\n<hr \/>\n<h2>Automation Bias: Warum das wichtiger ist, als Sie denken<\/h2>\n<p>All das w\u00e4re rein akademisch, wenn Menschen KI-Output mit angemessener Skepsis behandeln w\u00fcrden. Tun sie aber nicht.<\/p>\n<p>Automation Bias \u2014 die Tendenz, sich \u00fcberm\u00e4\u00dfig auf automatisierte Empfehlungen zu verlassen \u2014 ist eines der am gr\u00fcndlichsten dokumentierten Ph\u00e4nomene in der Mensch-Computer-Interaktionsforschung. Ein\u00a0<a href=\"https:\/\/link.springer.com\/article\/10.1007\/s00146-025-02422-7\" target=\"_blank\" rel=\"noopener\">systematisches Review aus dem Jahr 2025<\/a>, ver\u00f6ffentlicht in\u00a0<em>AI &amp; Society<\/em>, analysierte 35 begutachtete Studien aus den Bereichen Gesundheitswesen, Finanzwirtschaft, nationale Sicherheit und \u00f6ffentliche Verwaltung. Das Muster war dom\u00e4nen\u00fcbergreifend konsistent: Wenn ein KI-System eine selbstbewusste Antwort liefert, akzeptieren Menschen sie. Sie pr\u00fcfen weniger. Sie \u00fcberstimmen ihr eigenes Urteil.<\/p>\n<p>Eine\u00a0<a href=\"https:\/\/www.medrxiv.org\/content\/10.1101\/2025.08.23.25334280v1\" target=\"_blank\" rel=\"noopener\">randomisierte klinische Studie<\/a>\u00a0mit KI-geschulten \u00c4rzten in Pakistan (ver\u00f6ffentlicht als Preprint im August 2025) machte die Dynamik besonders deutlich. Selbst \u00c4rzte, die 20 Stunden KI-Kompetenztraining absolviert hatten \u2014 einschlie\u00dflich Anleitung zur kritischen Bewertung von KI-Output \u2014 waren anf\u00e4llig f\u00fcr Automation Bias, wenn sie fehlerhaften LLM-Empfehlungen ausgesetzt waren. Das Training half, beseitigte das Problem aber nicht. Selbstbewusst klingender KI-Output hat eine Gravitationskraft, der man schwer widerstehen kann, selbst wenn man wei\u00df, dass man nach Fehlern suchen sollte.<\/p>\n<p>Die realen Konsequenzen sind bereits sichtbar. Im Februar 2024 wurde Air Canada verurteilt, einem Kunden Schadenersatz zu zahlen, nachdem ein Support-Chatbot \u2014 kein Large Language Model, aber dennoch ein KI-System \u2014 eine Trauerfallrabatt-Richtlinie halluziniert hatte, die es gar nicht gab. Der Chatbot teilte dem Kunden selbstbewusst mit, er k\u00f6nne r\u00fcckwirkend innerhalb von 90 Tagen nach Kauf einen Rabatt beantragen. Die tats\u00e4chliche Richtlinie lie\u00df nichts dergleichen zu. Aber das System formulierte es mit einer Autorit\u00e4t, auf die sich der Kunde bei seiner finanziellen Entscheidung verlie\u00df. Die zugrundeliegende Technologie unterschied sich von heutigen LLMs, aber die Dynamik war identisch: selbstbewusster KI-Output, unkritische menschliche Akzeptanz.<\/p>\n<p>Im operativen Kontext sind die Fehlermodi subtiler, aber nicht weniger sch\u00e4dlich. Stellen Sie sich einen Vertrag vor, in dem die Zahlungsbedingungen auf Seite 8 und Seite 14 erw\u00e4hnt werden \u2014 und die beiden Seiten unterschiedliche Angaben machen. Ein menschlicher Pr\u00fcfer w\u00fcrde die Diskrepanz m\u00f6glicherweise bemerken. Eine KI, die die Zahlungsbedingungen extrahieren soll, w\u00e4hlt eine aus und macht weiter. Sie erw\u00e4hnt den Konflikt nicht. Sie markiert die Mehrdeutigkeit nicht. Sie f\u00fcllt die Zelle in Ihrer Tabelle mit \u201e30 Tage netto&#8221; und gibt Ihnen keinen Hinweis darauf, dass Seite 14 \u201e45 Tage netto&#8221; sagt.<\/p>\n<p>Meetingnotizen sind ein weiteres Minenfeld. \u201eLass uns n\u00e4chste Woche darauf zur\u00fcckkommen&#8221; wird in der KI-Zusammenfassung zu einem konkreten Datum mit einem benannten Verantwortlichen \u2014 Details, die niemand tats\u00e4chlich gesagt hat, die das Modell aber erfunden hat, um einen sauberen, handlungsorientierten Output zu liefern.<\/p>\n<p>Das Muster ist bei Rechnungen, Versicherungsdokumenten, Mietvertr\u00e4gen, Lieferantenbewertungen und CRM-Dateneingabe dasselbe: \u00dcberall dort, wo KI eingesetzt wird, um strukturierte Informationen aus unordentlichen Quellen zu extrahieren, arbeitet der Instinkt des Modells,\u00a0<em>jedes Feld zu f\u00fcllen<\/em>, direkt gegen das Bed\u00fcrfnis des Nutzers zu wissen, welche Felder unsicher sind.<\/p>\n<hr \/>\n<h2>Drei Prompt-Regeln, die den Anreiz ver\u00e4ndern<\/h2>\n<p>Diese drei Probleme \u2014 Trainingsanreize, die Raten belohnen; interne Mechanismen, die Unsicherheitserkennung \u00fcberschreiben k\u00f6nnen; und menschliche Psychologie, die selbstbewussten Output ungepr\u00fcft akzeptiert \u2014 stammen aus verschiedenen Forschungsstr\u00e4ngen. Aber sie konvergieren auf dieselbe praktische Schlussfolgerung: Standardm\u00e4\u00dfig wird KI raten statt Unwissen einzugestehen, und Menschen werden dem Rateergebnis vertrauen.<\/p>\n<p>Sie k\u00f6nnen die Trainingspipeline nicht reparieren. Sie k\u00f6nnen die Benchmarks nicht umgestalten. Aber Sie k\u00f6nnen die lokale Anreizstruktur innerhalb der Konversation ver\u00e4ndern. Die folgenden drei Regeln \u2014 adaptiert aus einem praktischen\u00a0<a href=\"https:\/\/d-squared70.github.io\/ChatGPT-and-Claude-Got-Smarter.-Not-More-Honest.\/\" target=\"_blank\" rel=\"noopener\">Framework von D-Squared<\/a>\u00a0\u2014 tun genau das. Sie funktionieren, weil sie die Standarddynamik explizit umkehren: Statt Vollst\u00e4ndigkeit zu belohnen, belohnen sie Ehrlichkeit \u00fcber Unsicherheit. Die Wirksamkeit dieser Techniken kann zwischen Modellfamilien variieren \u2014 getestet wurden sie prim\u00e4r mit ChatGPT und Claude; andere Modelle k\u00f6nnten unterschiedlich reagieren.<\/p>\n<h3>Regel 1: Leerlassen erzwingen + begr\u00fcnden<\/h3>\n<p>Die wirkungsvollste \u00c4nderung ist, das Modell explizit anzuweisen, Felder leer zu lassen, wenn die Daten mehrdeutig, fehlend oder unklar sind \u2014 und zu erkl\u00e4ren, warum.<\/p>\n<p>Ohne diese Regel wird jedes Feld gef\u00fcllt. Mit dieser Regel produziert das Modell Output wie diesen:<\/p>\n<table>\n<thead>\n<tr>\n<th>Feld<\/th>\n<th>Wert<\/th>\n<th>Begr\u00fcndung<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Zahlungsbedingungen<\/td>\n<td>\u2014 LEER<\/td>\n<td>Seite 8 und Seite 14 nennen unterschiedliche Bedingungen \u2014 30 Tage netto vs. 45 Tage netto<\/td>\n<\/tr>\n<tr>\n<td>Verl\u00e4ngerungsdatum<\/td>\n<td>15. Jan. 2027<\/td>\n<td>\u2014<\/td>\n<\/tr>\n<tr>\n<td>Haftungsobergrenze<\/td>\n<td>\u2014 LEER<\/td>\n<td>Verweist auf \u201eAnlage B&#8221; \u2014 nicht im Dokument enthalten<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Die leeren Felder sind der eigentliche Mehrwert. Sie zeigen genau, wo Ihre Aufmerksamkeit gebraucht wird. Sie sind das Eingest\u00e4ndnis des Modells: \u201eIch bin nicht sicher&#8221; \u2014 etwas, das es ohne explizite Anweisung nie tun w\u00fcrde.<\/p>\n<p><strong>Der Prompt:<\/strong><\/p>\n<blockquote><p><em>Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle. Regeln: Extrahiere nur Werte, die im Dokument explizit genannt werden. Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER. F\u00fcge eine Spalte \u201eBegr\u00fcndung&#8221; hinzu. Schreibe neben jedes leere Feld eine einzeilige Erkl\u00e4rung, warum du es leer gelassen hast. St\u00fctze jeden Wert auf das, was das Dokument tats\u00e4chlich sagt. Zitiere oder referenziere den konkreten Abschnitt, aus dem du ihn entnommen hast.<\/em><\/p><\/blockquote>\n<p>Eine M\u00f6glichkeit zu verstehen, warum das funktioniert, bietet Anthropics Interpretierbarkeitsforschung. Das Modell\u00a0<em>hat<\/em>\u00a0interne Mechanismen zur Erkennung von Unsicherheit \u2014 das oben beschriebene Standard-Verweigerungsverhalten. Aber diese Mechanismen werden vom Druck \u00fcberschrieben, vollst\u00e4ndigen, koh\u00e4renten Output zu produzieren. Die \u201eLeerlassen erzwingen&#8221;-Anweisung gibt dem Unsicherheitspfad m\u00f6glicherweise die Erlaubnis zu aktivieren, anstatt vom Vervollst\u00e4ndigungsinstinkt unterdr\u00fcckt zu werden. Ob das tats\u00e4chlich der interne Mechanismus ist, wissen wir nicht mit Sicherheit \u2014 aber das praktische Ergebnis ist konsistent und zuverl\u00e4ssig.<\/p>\n<h3>Regel 2: Raten bestrafen<\/h3>\n<p>Standardm\u00e4\u00dfig wiegen aus Sicht des Modells eine falsche Antwort und ein leeres Feld gleich schwer \u2014 keines wird gelobt, keines l\u00f6st Korrektur aus. Das Modell hat keinen Grund, eines dem anderen vorzuziehen, also r\u00e4t es standardm\u00e4\u00dfig (was zumindest eine Chance hat, richtig zu sein).<\/p>\n<p>Regel 2 \u00e4ndert dieses Kalk\u00fcl mit einem einzigen Satz:<\/p>\n<blockquote><p><em>Eine falsche Antwort ist 3\u00d7 schlimmer als ein leeres Feld. Im Zweifel lass es leer.<\/em><\/p><\/blockquote>\n<p>Dies spiegelt die Bewertungsreform wider, die OpenAIs September-2025-Paper auf Benchmark-Ebene fordert. Die Forscher schlagen vor, dass Bewertungssysteme Punkte f\u00fcr korrekte Antworten vergeben, falsche Antworten st\u00e4rker bestrafen als Enthaltungen und Teilpunkte f\u00fcr angemessene Ausdr\u00fccke von Unsicherheit geben sollen. Sie merken an, dass einige standardisierte menschliche Pr\u00fcfungen diesen Ansatz seit Jahrzehnten verwenden \u2014 falsches Raten wird st\u00e4rker bestraft als ausgelassene Fragen \u2014, genau um blindes Raten zu unterbinden.<\/p>\n<p>Sie k\u00f6nnen den Benchmark nicht \u00e4ndern. Aber Sie k\u00f6nnen dieselbe Anreizstruktur in Ihren Prompt einbauen. Der 3\u00d7-Multiplikator ist willk\u00fcrlich \u2014 w\u00e4hlen Sie eine beliebige Zahl, die dem Modell klarmacht, dass Schweigen besser ist als Erfindung. Die entscheidende Erkenntnis: Sie m\u00fcssen es\u00a0<em>explizit sagen<\/em>. Das Modell wird diese Pr\u00e4ferenz nicht von selbst ableiten.<\/p>\n<h3>Regel 3: Die Quelle zeigen<\/h3>\n<p>Selbst Modelle, denen gesagt wird, \u201enur zu extrahieren&#8221;, driften zur Inferenz ab. Sie berechnen ein Verl\u00e4ngerungsdatum aus Startdatum und Laufzeit. Sie sch\u00e4tzen eine Summe aus Einzelposten. Sie leiten eine Kontaktperson aus einer E-Mail-Signatur ab. Das ist nicht unbedingt falsch \u2014 aber es ist keine Extraktion, und der Nutzer muss den Unterschied kennen.<\/p>\n<p>Regel 3 verlangt vom Modell, jeden Wert als EXTRAHIERT (direkt im Dokument genannt) oder ABGELEITET (hergeleitet, berechnet oder interpretiert) zu kennzeichnen, mit einer Erkl\u00e4rung f\u00fcr jeden abgeleiteten Wert.<\/p>\n<p><strong>Der Prompt:<\/strong><\/p>\n<blockquote><p><em>F\u00fcge f\u00fcr jedes Feld eine Spalte \u201eQuelle&#8221; hinzu. Kennzeichne jeden Wert als: EXTRAHIERT \u2014 direkt im Dokument genannt, exakte \u00dcbereinstimmung. ABGELEITET \u2014 aus dem Kontext hergeleitet, berechnet oder interpretiert. F\u00fcge f\u00fcr jedes ABGELEITET-Feld eine einzeilige Erkl\u00e4rung hinzu, worauf du dich gest\u00fctzt hast.<\/em><\/p><\/blockquote>\n<p>Der Output sieht so aus:<\/p>\n<table>\n<thead>\n<tr>\n<th>Feld<\/th>\n<th>Wert<\/th>\n<th>Quelle<\/th>\n<th>Beleg<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Startdatum<\/td>\n<td>15. Jan. 2025<\/td>\n<td>EXTRAHIERT<\/td>\n<td>Abschnitt 2.1, Absatz 1<\/td>\n<\/tr>\n<tr>\n<td>Laufzeit<\/td>\n<td>24 Monate<\/td>\n<td>EXTRAHIERT<\/td>\n<td>Abschnitt 2.1, Absatz 2<\/td>\n<\/tr>\n<tr>\n<td>Verl\u00e4ngerungsdatum<\/td>\n<td>15. Jan. 2027<\/td>\n<td>ABGELEITET<\/td>\n<td>24 Monate ab Startdatum berechnet. Pr\u00fcfe Abschnitt 8 \u2014 Klausel zur vorzeitigen K\u00fcndigung k\u00f6nnte dies \u00e4ndern.<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Die EXTRAHIERT\/ABGELEITET-Unterscheidung ist eine praktische Umsetzung dessen, was Halluzinationsforschende als \u201eProvenance Tracking&#8221; bezeichnen \u2014 jede Behauptung an ihre Quelle zur\u00fcckbinden. Das Modell ist durchaus in der Lage, diese Unterscheidung zu treffen; es macht sich nur nicht die M\u00fche, wenn man nicht danach fragt.<\/p>\n<hr \/>\n<h2>Der kombinierte Prompt<\/h2>\n<p>Alle drei Regeln wirken zusammen. Hier die vollst\u00e4ndige Version:<\/p>\n<blockquote><p><em>Extrahiere die folgenden Felder aus diesem Dokument in eine Tabelle.<\/em><\/p>\n<p><em>Regeln:<\/em><\/p>\n<p><em>&#8211; Extrahiere nur Werte, die im Dokument explizit genannt werden.<\/em><\/p>\n<p><em>&#8211; Wenn ein Wert mehrdeutig, fehlend oder unklar ist, lass das Feld LEER.<\/em><\/p>\n<p><em>&#8211; Eine falsche Antwort ist 3\u00d7 schlimmer als ein leeres Feld. Im Zweifel lass es leer.<\/em><\/p>\n<p><em>&#8211; F\u00fcge f\u00fcr jedes Feld mit einem Wert eine Spalte \u201eQuelle&#8221; hinzu: EXTRAHIERT = direkt genannt, exakte \u00dcbereinstimmung. ABGELEITET = hergeleitet, berechnet oder interpretiert.<\/em><\/p>\n<p><em>&#8211; F\u00fcge f\u00fcr jedes ABGELEITET-Feld eine einzeilige Erkl\u00e4rung hinzu.<\/em><\/p>\n<p><em>&#8211; F\u00fcge f\u00fcr jedes LEER-Feld eine Zeile in eine separate \u201eHinweise&#8221;-Tabelle ein, die erkl\u00e4rt, warum der Wert nicht extrahiert werden konnte.<\/em><\/p><\/blockquote>\n<p>Die Workflow-\u00c4nderung, die das erm\u00f6glicht, ist erheblich. Statt jeden extrahierten Wert zu \u00fcberpr\u00fcfen (was niemand tats\u00e4chlich tut), pr\u00fcfen Sie nur die leeren und die abgeleiteten Felder. Alles, was als EXTRAHIERT mit einer Abschnittsreferenz markiert ist, kann mit h\u00f6herem Vertrauen behandelt werden. Ihre Aufmerksamkeit geht dahin, wo sie gebraucht wird.<\/p>\n<hr \/>\n<h2>Das gr\u00f6\u00dfere Bild<\/h2>\n<p>Diese drei Regeln sind eine \u00dcbergangsl\u00f6sung. Sie funktionieren \u2014 manchmal erstaunlich gut \u2014, aber sie arbeiten gegen die Richtung, in die Modelle trainiert werden. Die tiefere L\u00f6sung erfordert Ver\u00e4nderungen auf Infrastrukturebene.<\/p>\n<p>OpenAIs Halluzinations-Paper fordert eine Reform der Benchmarks: Bewertungssysteme, die kalibrierte Unsicherheit belohnen statt selbstbewusstes Raten. Anthropics Interpretierbarkeitsforschung weist auf architektonische Erkenntnisse hin \u2014 die internen Schaltkreise gut genug zu verstehen, um den \u201eIch wei\u00df es nicht&#8221;-Pfad zu st\u00e4rken, statt sich auf Prompt-Patches zu verlassen.<\/p>\n<p>Die vielleicht strukturell vielversprechendste Richtung ist OpenAIs \u201e<a href=\"https:\/\/openai.com\/index\/how-confessions-can-keep-language-models-honest\/\" target=\"_blank\" rel=\"noopener\">Confessions<\/a>&#8220;-Forschung (2025). Statt sich darauf zu verlassen, dass Nutzer Ehrlichkeit per Prompt erzwingen, trennt der Confessions-Ansatz das Ehrlichkeitsziel vom Leistungsziel\u00a0<em>bereits im Training<\/em>. Nachdem das Modell eine Hauptantwort produziert hat \u2014 optimiert auf all die \u00fcblichen Faktoren wie Korrektheit, Stil und Hilfsbereitschaft \u2014 erstellt es einen separaten \u201eBeichtbericht&#8221;. Dieser Bericht wird ausschlie\u00dflich auf Ehrlichkeit bewertet: Hat das Modell seine Unsicherheiten markiert? Hat es zugegeben, wo es Abk\u00fcrzungen genommen hat? Entscheidend: Nichts im Beichtbericht wird gegen den Score der Hauptantwort verwendet, sodass das Modell keinen Anreiz hat, seine Zweifel zu verbergen. Wenn dieser Ansatz skaliert, k\u00f6nnte er das Ehrlichkeitsproblem von etwas, das Nutzer per Prompt-Engineering umgehen m\u00fcssen, zu etwas machen, das das Modell nativ handhabt.<\/p>\n<p>Das sind vielversprechende Richtungen, aber keine davon steht Ihnen heute zur Verf\u00fcgung. Was\u00a0<em>Ihnen<\/em>\u00a0zur Verf\u00fcgung steht, ist die M\u00f6glichkeit, die lokale Anreizstruktur in Ihren Prompts zu ver\u00e4ndern. Leere erzwingen. Raten bestrafen. Quellenangaben verlangen. Diese drei Regeln machen KI nicht von Natur aus ehrlich, aber sie schaffen eine Umgebung, in der Ehrlichkeit der Weg des geringsten Widerstands ist \u2014 und das erweist sich als \u00fcberraschend wirksam.<\/p>\n<p>Die Modelle sind schlau genug zu wissen, wann sie raten. Sie brauchen nur die Erlaubnis, es zu sagen.<\/p>\n<hr \/>\n<h3>Quellen und weiterf\u00fchrende Lekt\u00fcre<\/h3>\n<ul>\n<li><strong>OpenAI (September 2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/openai.com\/index\/why-language-models-hallucinate\/\" target=\"_blank\" rel=\"noopener\">Why Language Models Hallucinate<\/a>.&#8221; Forschungspapier, das argumentiert, dass Standard-Trainings- und Evaluierungsverfahren Raten statt Eingestehen von Unsicherheit belohnen.<\/li>\n<li><strong>OpenAI (2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/openai.com\/index\/how-confessions-can-keep-language-models-honest\/\" target=\"_blank\" rel=\"noopener\">How Confessions Can Keep Language Models Honest<\/a>.&#8221; Forschung zum Training von Modellen, die separate Ehrlichkeitsberichte erstellen, unabh\u00e4ngig von der Hauptantwort bewertet.<\/li>\n<li><strong>Anthropic (M\u00e4rz 2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model\" target=\"_blank\" rel=\"noopener\">Tracing the Thoughts of a Large Language Model<\/a>.&#8221; Interpretierbarkeitsforschung, die interne Schaltkreise f\u00fcr Verweigerung, Entit\u00e4tserkennung und Halluzination in Claude 3.5 Haiku aufdeckt.<\/li>\n<li><strong>Anthropic (M\u00e4rz 2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/transformer-circuits.pub\/2025\/attribution-graphs\/biology.html\" target=\"_blank\" rel=\"noopener\">On the Biology of a Large Language Model<\/a>.&#8221; Begleitpaper zu Circuit Tracing und Attribution Graphs.<\/li>\n<li><strong>Carnat, I. (November 2024):<\/strong>\u00a0\u201eHuman, All Too Human: Accounting for Automation Bias in Generative Large Language Models.&#8221;\u00a0<em>International Data Privacy Law<\/em>, Bd. 14, Heft 4, S. 299\u2013314.<\/li>\n<li><strong>Qazi, I.A. et al. (August 2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/www.medrxiv.org\/content\/10.1101\/2025.08.23.25334280v1\" target=\"_blank\" rel=\"noopener\">Automation Bias in LLM Assisted Diagnostic Reasoning Among AI-Trained Physicians<\/a>.&#8221; Randomisierte klinische Studie, medRxiv-Preprint.<\/li>\n<li><strong>AI &amp; Society (Juli 2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/link.springer.com\/article\/10.1007\/s00146-025-02422-7\" target=\"_blank\" rel=\"noopener\">Exploring Automation Bias in Human\u2013AI Collaboration<\/a>.&#8221; Systematisches Review von 35 Studien.<\/li>\n<li><strong>D-Squared (2025):<\/strong>\u00a0\u201e<a href=\"https:\/\/d-squared70.github.io\/ChatGPT-and-Claude-Got-Smarter.-Not-More-Honest.\/\" target=\"_blank\" rel=\"noopener\">ChatGPT and Claude Got Smarter. Not More Honest.<\/a>&#8221; Original-Slide-Deck mit den drei Prompt-Regeln.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Jede neue Modellgeneration wird mit gro\u00dfem Tamtam angek\u00fcndigt: bessere Benchmarks, h\u00f6here Genauigkeitswerte, beeindruckendere Demos. GPT-5 l\u00f6st komplexe Denkaufgaben. Claude plant beim Dichten voraus. Gemini verarbeitet Bilder und Videos mit verbl\u00fcffender Leichtigkeit. Die Intelligenzkurve steigt und steigt. Aber es gibt eine zweite Kurve, die es selten auf die Keynote-Folien schafft \u2014 die Ehrlichkeitskurve. Und die hat &hellip;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[45,72],"tags":[47,51,53,49],"class_list":["post-191","post","type-post","status-publish","format-standard","hentry","category-ai","category-perspektiven","tag-ai","tag-gpt","tag-halucination","tag-llm"],"_links":{"self":[{"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/posts\/191","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=191"}],"version-history":[{"count":2,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/posts\/191\/revisions"}],"predecessor-version":[{"id":195,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=\/wp\/v2\/posts\/191\/revisions\/195"}],"wp:attachment":[{"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=191"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=191"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/knowtech.waszmann.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=191"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}