Das Drei-Regeln-Framework in der Cybersecurity: Blue, Red und Purple Team
Dies ist der fünfte Beitrag einer Serie über das Drei-Regeln-Framework — Leerlassen erzwingen, Raten bestrafen, Quelle zeigen. Das Framework wurde bisher auf Dokumentextraktion, Worldbuilding, Szenarioplanung und Implementierung im Organisationskontext angewandt.
Dieser Beitrag wendet es auf eine Domäne an, in der die Einsätze so hoch sind wie kaum anderswo: Cybersecurity.
Das strukturelle Problem ist bekannt. KI generiert selbstbewusst klingende Sicherheitsbewertungen, die verifizierte Befunde mit Inferenzen und Annahmen vermischen — und niemand kann unterscheiden, was was ist. Ein Schwachstellen-Scan-Ergebnis steht neben einer architektonischen Inferenz neben einer ungetesteten Annahme über Netzwerksegmentierung, alles mit der gleichen Zuversicht präsentiert. Der Output sieht gründlich aus. Manches ist fundiert. Manches wurde erfunden, damit das Narrativ zusammenhält.
Bei der Szenarioplanung kostet das Planungsressourcen. In der Cybersecurity ist es ein Breach, der darauf wartet zu passieren.
Warum die Cybersecurity besonders anfällig ist
Ein Survey-Paper von 2025 über Halluzinationen in KI-gestützten Cybersecurity-Systemen identifiziert das Kernrisiko: KI-Modelle, die auf Sprachfluss optimiert sind, können sichere Aktivitäten fälschlich als Bedrohung einstufen oder tatsächliche Gefahren übersehen — und tun beides im selben selbstbewussten Ton, unabhängig davon, ob ihre Bewertung evidenzbasiert ist. Das Design-Ziel Sprachfluss vor Genauigkeit verstärkt das Problem: Modelle produzieren hochkonfidente Aussagen auch ohne faktische Fundierung.
Die OWASP Foundation listet KI-Halluzination in ihrer Ausgabe 2025 unter den Top-Risiken für LLM-gestützte Sicherheitstools. Das Problem sind nicht isolierte False Positives oder False Negatives — es ist die Vermischung von realen Befunden und fabrizierten Bewertungen in einem einzigen Output, den Menschen dann als gleichmäßig zuverlässig behandeln.
Die Lücken-Labels für Cybersecurity
Zwei Lücken-Labels gelten teamübergreifend:
[SICHTBARKEITSLÜCKE]— etwas, das das Team nicht sehen kann oder nicht instrumentiert hat: unüberwachte Netzwerksegmente, fehlende Log-Quellen, Schatten-IT, Cloud-Services ohne Telemetrie[VALIDIERUNGSLÜCKE]— eine Kontrolle oder Erkennungsregel, die auf dem Papier oder in der Konfiguration existiert, aber nie gegen tatsächliches Angriffsverhalten getestet wurde
Die Unterscheidung ist entscheidend. Eine Sichtbarkeitslücke bedeutet: Sie haben die Daten nicht. Eine Validierungslücke bedeutet: Sie haben die Daten (oder glauben es), aber haben nicht bewiesen, dass die Erkennung tatsächlich funktioniert. Beides ist gefährlich; es erfordert unterschiedliche Maßnahmen.
Blue Team: Verteidigung
Die Wahrheitsquelle des Blue Teams ist: was über die Verteidigungslage durch direkte Evidenz bestätigt wurde — nicht was die Policy sagt, nicht was der Hersteller verspricht, nicht was wahr sein sollte.
Forschung von Mitiga legt nahe, dass traditionelle SIEMs im Durchschnitt nur etwa 21 % der MITRE ATT&CK-Techniken erkennen — das heißt, bei rund vier von fünf Technikkategorien gibt es keine validierte Erkennungsabdeckung. Dennoch berichten viele Organisationen deutlich höhere Coverage-Zahlen, weil sie konfigurierte Regeln zählen statt validierte Erkennungen. Die Kluft zwischen „Wir haben eine Regel dafür“ und „Diese Regel hat bei einem realen Angriff korrekt ausgelöst“ ist genau die Kluft, die das Framework offenlegt.
AttackIQs Analyse vom März 2026 hat es treffend formuliert: Coverage ist nicht statisch, Umgebungen ändern sich, und eine Erkennung, die letzten Monat funktionierte, kann diesen Monat still kaputtgegangen sein. Ein Teilnehmer eines Webinars brachte es auf den Punkt: Erkennungen zu haben bedeutet nichts, wenn sie kein Signal produzieren, auf das das Team reagieren kann.
Blue Team Quellen-Tags
(VERIFIZIERT)— bestätigt durch direkte Evidenz: getestete Kontrolle, beobachteter Log-Eintrag, validierte Konfiguration, Scan-Ergebnis mit Zeitstempel(POLICY-DOKUMENTIERT)— in Policy, Konfigurationsleitfäden oder Herstellerdokumentation beschrieben, aber nicht unabhängig validiert(INFERIERT)— aus indirekten Indikatoren abgeleitet. „Keine Alerts in 90 Tagen“ heißt nicht „keine Einbrüche in 90 Tagen“ — es könnte heißen, die Erkennung funktioniert nicht
Blue Team Prompt
Du bist ein defensiver Sicherheitsanalyst, der unsere Umgebung überprüft. Tagge jede Sicherheitsaussage mit ihrer Evidenzbasis:
• (VERIFIZIERT) — bestätigt durch direktes Testen, Log-Evidenz oder Scan-Ergebnisse. Nenne die konkrete Evidenz.
• (POLICY-DOKUMENTIERT) — in Policy oder Konfigurationsleitfäden dokumentiert, aber nicht unabhängig validiert. Beschreibe, wie eine Validierung aussehen würde.
• (INFERIERT) — aus indirekten Indikatoren abgeleitet. Nenne die Inferenzkette und was sie ungültig machen könnte.
• Wenn du eine Kontrolle oder einen Abdeckungsbereich identifizierst, der nicht getestet oder instrumentiert wurde, markiere ihn als [SICHTBARKEITSLÜCKE] oder [VALIDIERUNGSLÜCKE] mit kurzer Erklärung.
• Ein falsches Sicherheitsgefühl ist gefährlicher als eine bekannte Lücke. Eine bekannte Lücke wird budgetiert. Falsches Vertrauen wird gehackt. Im Zweifel markiere die Lücke.
Blue Team Beispiel-Output
| Kontrolle | Status | Quelle | Anmerkung |
|---|---|---|---|
| MFA auf VPN | Aktiviert | POLICY-DOKUMENTIERT | Azure AD Conditional Access Policy verlangt MFA. [VALIDIERUNGSLÜCKE: kein Pentest hat Durchsetzung auf dem Cisco AnyConnect Endpoint verifiziert] |
| EDR-Abdeckung | 94 % der Endpoints | VERIFIZIERT | CrowdStrike Dashboard, abgerufen April 2026 |
| Lateral-Movement-Erkennung | Aktiv | INFERIERT | SIEM hat Regeln für Pass-the-Hash. Kein Purple-Team-Exercise hat getestet, ob sie auslösen. [VALIDIERUNGSLÜCKE] |
| DNS-Exfiltration-Erkennung | — | SICHTBARKEITSLÜCKE | Kein DNS-Logging auf internen Resolvern konfiguriert. DNS-Tunneling nicht erkennbar. |
Red Team: Offensive
Die Wahrheitsquelle des Red Teams ist: was durch tatsächliche Exploitation demonstriert wurde — nicht was verwundbar sein sollte, nicht was Shodan zeigt, nicht was die CVE-Datenbank nahelegt.
Red Team Quellen-Tags
(BESTÄTIGT)— Schwachstelle ausgenutzt, Zugang erreicht, Daten exfiltriert — mit Evidenz (Screenshot, Hash, Artefakt, Session-Log)(INDIZIERT)— starke Indikatoren für Verwundbarkeit, aber Exploitation noch nicht versucht: Versions-Fingerprint passt zu bekanntem CVE, Default-Credentials erkannt aber nicht getestet(HYPOTHETISIERT)— Angriffspfad existiert theoretisch auf Basis der Architekturanalyse, aber ungetestet. Nennt die Annahmen, von denen der Pfad abhängt
Red Team Prompt
Du bist ein Red-Team-Operator, der potenzielle Angriffspfade analysiert. Tagge jedes Finding oder jeden Angriffspfad:
• (BESTÄTIGT) — Schwachstelle ausgenutzt und Zugang demonstriert. Nenne die spezifische Evidenz (Tool-Output, Artefakt, Hash).
• (INDIZIERT) — starke Indikatoren deuten auf Verwundbarkeit hin, aber Exploitation wurde nicht versucht. Nenne die Indikatoren.
• (HYPOTHETISIERT) — Angriffspfad ist theoretisch plausibel basierend auf Architektur, aber ungetestet. Nenne die Annahmen, von denen der Pfad abhängt.
• Markiere ungetestete Angriffsflächen als [UNGETESTETE FLÄCHE: Beschreibung].
• Markiere angenommene Netzwerkpfade oder Vertrauensbeziehungen als [ANGENOMMENER PFAD: welche Konnektivität oder welches Vertrauen wird angenommen].
• Eine hypothetisierte Schwachstelle, die als bestätigt gemeldet wird, verschwendet Verteidigungsressourcen auf die falsche Priorität. Wenn nicht getestet, sag es.
Red Team Beispiel-Output
| Finding | Schweregrad | Quelle | Detail |
|---|---|---|---|
| Jenkins RCE (CVE-2024-XXXX) | Kritisch | BESTÄTIGT | Exploit via Metasploit, Reverse Shell erhalten. Artefakt: Session-Log ID 47 |
| Lateral Movement Jenkins → DB | Hoch | HYPOTHETISIERT | Jenkins auf VLAN 10, DB auf VLAN 20. [ANGENOMMENER PFAD: nimmt an, dass keine ACL zwischen VLANs — nicht validiert] |
| S3-Bucket öffentlicher Zugriff | Mittel | INDIZIERT | Bucket-Policy erlaubt s3:GetObject für *. [UNGETESTETE FLÄCHE: kein Versuch, sensitive Inhalte herunterzuladen] |
| Domain-Admin via Kerberoasting | Hoch | INDIZIERT | SPN auf Service-Account mit schwacher Verschlüsselung (RC4) gefunden. Hash noch nicht geknackt. |
Purple Team: Kollaboration
Purple Teaming ist, wo das Framework seine größte Kraft entfaltet, weil der gesamte Zweck darin besteht, offensive Fähigkeiten gegen defensive Fähigkeiten zu mappen — und der Raum dazwischen genau das ist, was die Lücken-Labels sichtbar machen.
Purple Team Quellen-Tags
(ERKANNT)— Blue Team hat die Angriffstechnik erfolgreich erkannt und alarmiert. Nennt den spezifischen Alert, die Regel oder SIEM-Korrelation(TEILWEISE ERKANNT)— Indikatoren wurden geloggt, aber nicht zu einem handlungsfähigen Alert korreliert. Die Rohdaten existieren; die Erkennungslogik nicht(VERFEHLT)— Angriffstechnik war erfolgreich ohne Erkennung auszulösen. Höchstprioritäts-Finding(NICHT GETESTET)— Diese MITRE ATT&CK-Technik wurde in diesem Engagement nicht ausgeübt. Erkennungsfähigkeit kann nicht bewertet werden
Purple Team Prompt
Du bist ein Purple-Team-Analyst, der Angriffsergebnisse gegen Erkennungsfähigkeiten mappt. Tagge für jede getestete Technik das Ergebnis:
• (ERKANNT) — Blue Team hat erkannt und alarmiert. Nenne die spezifische Erkennungsregel, den Alert oder die Korrelation.
• (TEILWEISE ERKANNT) — Indikatoren wurden geloggt, aber nicht zu einem Alert korreliert. Nenne, was geloggt wurde und welche Erkennungslogik fehlt.
• (VERFEHLT) — Angriff war erfolgreich ohne Erkennung. Dies ist das höchstprioritäre Finding.
• (NICHT GETESTET) — Technik wurde in diesem Engagement nicht ausgeübt. Bewerte nicht die Erkennungsfähigkeit für ungetestete Techniken.
• Für jedes VERFEHLT-Finding markiere die Ursache: [SICHTBARKEITSLÜCKE] (Daten nicht erhoben) oder [ERKENNUNGSLÜCKE] (Daten erhoben, aber keine Regel oder Korrelation vorhanden).
• Nimm nicht an, dass eine Kontrolle funktioniert, weil sie existiert. Eine SIEM-Regel, die nie gegen einen realen Angriff ausgelöst hat, ist eine [VALIDIERUNGSLÜCKE], nicht (ERKANNT).
• Eine ungetestete Technik, die als erkannt gemeldet wird, gibt falsches Vertrauen. Wenn nicht getestet, sag NICHT GETESTET — niemals extrapolieren.
Purple Team Beispiel-Output
| MITRE-Technik | Red-Ergebnis | Blue-Ergebnis | Quelle | Maßnahme |
|---|---|---|---|---|
| T1566.001 Spearphishing | Payload zugestellt | Alert in 12 Min. ausgelöst | ERKANNT | Review: 12 Min. Mean-Time-to-Detect akzeptabel? |
| T1003.001 LSASS-Dump | Credentials extrahiert | Kein Alert | VERFEHLT | [SICHTBARKEITSLÜCKE: kein LSASS-Zugriffsmonitoring konfiguriert] |
| T1071.001 Web C2 | C2-Kanal etabliert | Proxy hat Traffic geloggt, kein Alert | TEILWEISE ERKANNT | [ERKENNUNGSLÜCKE: Beaconing-Pattern-Erkennung benötigt] |
| T1053.005 Scheduled Task | — | — | NICHT GETESTET | [VALIDIERUNGSLÜCKE: Persistenz-Techniken nicht im Scope] |
Die Cybersecurity-Version von Regel 2
Die „Raten bestrafen“-Regel bekommt im Sicherheitskontext besondere Dringlichkeit. Bei der Dokumentextraktion verschwendet eine falsche Antwort Zeit. In der Cybersecurity kumulieren die Kosten anders:
- Ein
(HYPOTHETISIERT)-Finding, das als(BESTÄTIGT)gemeldet wird → Verteidigungsressourcen gehen an die falsche Stelle - Eine
(POLICY-DOKUMENTIERT)-Kontrolle, die als(VERIFIZIERT)gemeldet wird → tatsächliche Exposition bleibt unbehandelt - Eine
(NICHT GETESTET)-Technik, die als(ERKANNT)gemeldet wird → das Team glaubt, geschützt zu sein, wo es blind ist - Eine
[SICHTBARKEITSLÜCKE], die ungetaggt bleibt → der Angreifer operiert im einzigen Bereich, den niemand beobachtet
Die Cybersecurity-Formulierung von Regel 2 ist:
Falsches Vertrauen in eine Sicherheitskontrolle ist gefährlicher als eine bekannte Lücke. Eine bekannte Lücke wird budgetiert. Falsches Vertrauen wird gehackt.
Das ist nicht hypothetisch. Das Muster „angenommene Abdeckung, tatsächliche Blindheit“ ist genau das, was große Breaches ausnutzen. Angreifer zielen nicht auf Ihre stärksten Verteidigungen — sie finden die Bereiche, in denen Sie glauben, abgedeckt zu sein, es aber nicht sind. Jede [VALIDIERUNGSLÜCKE], die das Framework offenlegt, ist ein Ort, den der Gegner sondieren würde.
Das teamübergreifende Muster
| Team | Wahrheitsquelle | Quellen-Tags | Lücken-Labels | Regel-2-Formulierung |
|---|---|---|---|---|
| Blue | Bestätigte Verteidigungslage | VERIFIZIERT / POLICY-DOKUMENTIERT / INFERIERT | SICHTBARKEITSLÜCKE / VALIDIERUNGSLÜCKE | Eine policy-dokumentierte Kontrolle, die als verifiziert behandelt wird, ist eine offene Tür |
| Red | Demonstrierte Exploitation | BESTÄTIGT / INDIZIERT / HYPOTHETISIERT | UNGETESTETE FLÄCHE / ANGENOMMENER PFAD | Ein hypothetisierter Pfad, der als bestätigt behandelt wird, verschwendet Verteidigungsressourcen |
| Purple | Validierte Erkennungsfähigkeit | ERKANNT / TEILWEISE ERKANNT / VERFEHLT / NICHT GETESTET | SICHTBARKEITSLÜCKE / ERKENNUNGSLÜCKE / VALIDIERUNGSLÜCKE | Eine ungetestete Technik, die als erkannt behandelt wird, erzeugt falsches Vertrauen |
Die Struktur ist in jedem Fall gleich: Unterscheide zwischen dem, was bewiesen wurde, und dem, was angenommen wurde, mache die Grenze sichtbar, und behandle falsches Vertrauen als schlimmer als eingestandene Unsicherheit.
Oder, in Begriffen, die jeder Sicherheitsprofi sofort versteht: Das Framework verwandelt „angenommene Abdeckung“ in „validierte Abdeckung“ — und macht alles dazwischen explizit.
Integration mit MITRE ATT&CK
Das Drei-Regeln-Framework mappt natürlich auf MITRE ATT&CK-Assessments. Die ATT&CK-Matrix liefert das Was — welche Techniken existieren. Das Framework liefert das Wie sicher — für welche Techniken Sie tatsächlich die Abdeckung validiert haben.
Eine Standard-ATT&CK-Heatmap zeigt Rot (keine Abdeckung) und Grün (Abdeckung). Das Drei-Regeln-Framework fügt die entscheidende Zwischenschicht hinzu: Grün, das validiert wurde, vs. Grün, das angenommen wurde. Wie AttackIQ feststellt, kann die Kluft zwischen einem grünen Feld und tatsächlicher Verteidigungsfähigkeit enorm sein. Abdeckung für eine Prozedur ist nicht Abdeckung für eine Technik. Eine Erkennung, die letzten Monat funktionierte, kann diesen Monat still kaputtgegangen sein.
Die Drei-Regeln-Tags zu Ihrem ATT&CK-Coverage-Assessment hinzuzufügen verwandelt es von einer Deployment-Karte in eine Konfidenz-Karte — und Konfidenz-Karten sind die Grundlage, auf der Sicherheitsentscheidungen basieren sollten.
Quellen und weiterführende Lektüre
- CAEE Journal (April 2025): „The Paradigm of Hallucinations in AI-driven Cybersecurity Systems.“ Taxonomie der Halluzinations-Auswirkungen auf Cybersecurity-Tools.
- AttackIQ (März 2026): „What Does MITRE ATT&CK Coverage Really Mean?“ Über die Kluft zwischen behaupteter Abdeckung und validierter Erkennung.
- Mitiga (2025): „Measurements That Matter.“ Berichtet ~21 % durchschnittliche ATT&CK-Erkennungsrate für traditionelle SIEMs.
- Kroll Cyber Risk (2023): „MITRE ATT&CK Detection Maturity Assessment Guide.“ Template-basierter Ansatz zur Identifikation von Abdeckungslücken.
- OWASP / Hacken (2025): „LLM Security Frameworks: A CISO’s Guide.“ Zu NIST AI RMF, ISO 42001 und Halluzinations-Monitoring.
- MITRE ATT&CK: attack.mitre.org. Die Wissensbasis für Angreifer-Taktiken und -Techniken.
- Vorherige Beiträge in dieser Serie:
Beitrag 1: ChatGPT und Claude wurden schlauer. Nicht ehrlicher.
Beitrag 2: Von der Vertragsanalyse zur Alternate History
Beitrag 3: Das Drei-Regeln-Framework für Szenarioplanung
Beitrag 4: Das Framework umsetzen: Kalibrierung, Governance und Trade-offs
