Ein Anwalt reichte 2023 einen Schriftsatz ein, der sechs Gerichtsurteile zitierte — die alle von ChatGPT erfunden worden waren. Der Fall sorgte weltweit für Schlagzeilen und wurde zum Paradebeispiel für AI-Halluzinationen. Auch 2026 sind Halluzinationen nicht vollständig gelöst, aber die Werkzeuge zur Eindämmung sind deutlich besser geworden. Wer sie versteht, kann AI trotzdem sicher einsetzen.
📖 Definition: Eine AI-Halluzination ist eine vom Modell generierte Aussage, die plausibel klingt, aber faktisch falsch ist — erfundene Fakten, nicht existierende Quellen oder logisch inkorrekte Schlussfolgerungen.
LLMs sind statistische Textgeneratoren. Sie berechnen das wahrscheinlichste nächste Token (Wort oder Wortbestandteil) basierend auf dem bisherigen Kontext. Das bedeutet:
💡 Tipp: Halluzinationen sind kein Bug, sondern eine Eigenschaft der Architektur. Jedes LLM halluziniert — die Frage ist, wie häufig und wie Sie damit umgehen.
| Typ | Beschreibung | Beispiel | Risiko |
|---|---|---|---|
| 📚 Fakten-Halluzination | Erfundene Fakten oder Ereignisse | "Der Umsatz von Firma X betrug 2025 genau 4,7 Mrd. €" (frei erfunden) | 🔴 Hoch |
| 📄 Quellen-Fabrikation | Nicht existierende Quellen zitiert | "Laut einer Harvard-Studie von 2025…" (Studie existiert nicht) | 🔴 Sehr hoch |
| 🔢 Numerische Halluzination | Falsche Zahlen, Berechnungen | "23 % von 450 sind 103,5" (korrekt wäre 103,5 — aber oft mit groben Fehlern) | 🟡 Mittel |
| 🔗 Logische Halluzination | Korrekte Fakten, falsche Schlussfolgerung | "A führt zu B, B führt zu C, also führt A direkt zu D" | 🟡 Mittel |
⚠️ Achtung: Quellen-Fabrikation ist besonders gefährlich, weil sie Vertrauen suggeriert. Wenn ein LLM eine "Studie" zitiert, prüfen Sie immer, ob diese tatsächlich existiert — egal wie überzeugend die Referenz klingt.
Grounding bezeichnet Methoden, die AI-Antworten in verifizierten Fakten verankern:
| Technik | Funktionsweise | Halluzinations-Reduktion | Aufwand |
|---|---|---|---|
| 🔍 RAG (Retrieval-Augmented Generation) | Modell sucht zuerst in eigener Wissensdatenbank | ⬇️ 60–80 % | Mittel bis hoch |
| 📎 Citations (Quellenangaben) | Modell muss jede Aussage mit Quelle belegen | ⬇️ 40–60 % | Niedrig |
| 🌐 Web Search | Modell greift auf aktuelle Webinhalte zu | ⬇️ 50–70 % | Niedrig |
| 🔗 Kombination RAG + Citations | Wissensdatenbank plus Quellennachweis | ⬇️ 80–95 % | Hoch |
🏢 Praxis-Beispiel: Ein Beratungsunternehmen implementierte RAG mit ihrer internen Wissensdatenbank (15.000 Dokumente). Vor RAG enthielten 23 % der AI-generierten Berichte faktische Fehler. Nach RAG sank die Quote auf unter 3 %. Die Investition amortisierte sich in 4 Monaten.
Nicht alle Modelle halluzinieren gleich:
💡 Tipp: Für Anwendungen, in denen Genauigkeit kritisch ist (Recht, Finanzen, Medizin), wählen Sie Modelle mit nachweislich niedrigen Halluzinationsraten und kombinieren Sie diese mit RAG.
Ein bewährter Vier-Stufen-Prozess für den sicheren Umgang mit AI-Output:
Stufe 1: 🤖 AI generiert Antwort (mit Quellenangaben-Prompt)
Stufe 2: 🔍 AI prüft eigene Antwort auf interne Konsistenz
Stufe 3: 📊 Automatischer Abgleich mit verifizierten Datenquellen
Stufe 4: 👤 Mensch verifiziert kritische Fakten und gibt frei
Zusätzliche Absicherungen:
🔑 Merke: Vertrauen Sie AI-Output wie einem brillanten Praktikanten — beeindruckend schnell und oft richtig, aber immer prüfenswert. Je kritischer die Anwendung, desto mehr Verifikation.
🎯 Übung: Stellen Sie demselben LLM dreimal die gleiche Fachfrage aus Ihrem Bereich. Vergleichen Sie die Antworten — Abweichungen sind ein Indikator für Halluzinationsrisiko. Dokumentieren Sie, wo das Modell konsistent und wo es unsicher antwortet.
Nächste Lektion: Daten-Governance für AI-Projekte — wie Sie Compliance und Datenschutz sicherstellen.
Warum halluzinieren LLMs?