Die Wahrheit hinter den Halluzinationen der generativen KI

Autor: Paul Berenguer, Business Innovation Manager

Selbst die fortschrittlichsten Sprachmodelle generieren falsche, wenn auch plausible Aussagen, ohne ihre eigene Unsicherheit zu erkennen. Dieses Phänomen wird als Halluzination bezeichnet. Das Modell stellt Vermutungen auf, wenn es nicht über ausreichende Beweise verfügt, und sagt nicht „Ich weiß es nicht”. In dem Dokument Why Language Models Hallucinate argumentiert OpenAI, dass diese Halluzinationen weder eine Laune der Software noch ein moralischer Mangel der Maschinen sind, sondern eine Folge davon, wie sie trainiert und bewertet werden. Wenn das System für das Risiko einer Antwort mehr Belohnung erhält als für das Unterlassen einer Antwort, neigt es dazu, auch dann zu antworten, wenn es sich nicht sicher ist. Ähnlich wie bei einem Multiple-Choice-Test, bei dem es keine Strafpunkte für falsche Antworten gibt und die Antwort „Ich weiß es nicht” null Punkte bringt, maximiert das „Raten” die erwartete Punktzahl.

In diesem Aufsatz wird gezeigt, dass sich das generative Verhalten eines Modells als Problem der binären Klassifizierung (gültige vs. ungültige Antworten) analysieren lässt. Von hier aus führt jede Fehlerquote bei dieser Klassifizierung zu einer Fehlerquote bei der Generierung. Als allgemeine Prämisse ist anzumerken, dass es einfache Fälle gibt, in denen das Modell richtig und falsch gut voneinander trennt, Fälle, in denen das Modell selbst ungeeignet ist, sowie Fälle, in denen die Fakten keinem erkennbaren Muster folgen.

Aus Sicht des Modells sind viele Fakten in der Welt „willkürlich”. So kommt der Titel einer Dissertation, das Datum eines kleinen Ereignisses oder ein bestimmter alphanumerischer Code vielleicht einmal im Trainingskorpus vor. Sind diese Singletons (isolierte Einzelfälle) zu häufig vertreten, verfügt das System nicht über eine ausreichende statistische Grundlage für Verallgemeinerungen. Bei Fragen mit seltenen Fakten steigt dann die Versuchung zu spekulieren. Selbst wenn der Korpus perfekt wäre, verhindert das statistische Ziel, das nächste Wort vorherzusagen, nicht einen gewissen Prozentsatz unvermeidbarer Fehler in Domänen mit geringer Redundanz.

Die zweite Komponente des Phänomens tritt während der Nachschulung bzw. bei der Bewertung auf. Die meisten Benchmarks und Standardtests bewerten nach einem binären Schema: richtig oder falsch. Die Antwort „Ich weiß es nicht” wird als Fehler gewertet. Das veranlasst die Modelle, auch dann eine Antwort zu geben, wenn die Wahrscheinlichkeit, dass diese richtig ist, gering ist. Dadurch verschlechtert sich die Kalibrierung (die Übereinstimmung zwischen der Sicherheit des Systems und der tatsächlichen Richtigkeit). Diese Antwortverzerrung zeigt sich auch, wenn Techniken zur Fehlerreduzierung, wie z. B. die erweiterte Suche mit Dokumentenrecherche oder umfangreichere Schlussfolgerungsnetzwerke, einbezogen werden. Auch wenn diese Techniken nützlich sind, wird das System weiterhin „Risiken eingehen”, wenn die Beweislage unzureichend ist – solange das Bewertungskriterium das Antworten belohnt und eine begründete Enthaltung nicht berücksichtigt.

Der zentrale Vorschlag der genannten wissenschaftlichen Veröffentlichung ist ebenso direkt wie ungewöhnlich: Die Einführung expliziter Vertrauenskriterien und die Anerkennung von Zurückhaltung, wenn dies angemessen ist, sollen dazu dienen, Anweisungen und Metriken zu formulieren, die operative Vertrauensschwellen festlegen. Wenn die Treffsicherheit des Modells einen bestimmten Schwellenwert nicht überschreitet, lautet die erwartete Antwort „Ich weiß es nicht”. Diese Enthaltung wird neutral – oder sogar positiv – bewertet, im Gegensatz zu einer falschen Vermutung, je nach Kontext und Kosten des Fehlers. Es geht nicht darum, vom System perfekte Wahrscheinlichkeitszahlen zu verlangen, sondern darum, dass sein Verhalten mit verständlichen und überprüfbaren Zuverlässigkeitszielen übereinstimmt.

Ein Bewertungsschema mit Schwellenwerten macht die Kompromisse zwischen Abdeckung und Genauigkeit sichtbar und ermöglicht eine Anpassung des Systems an die Risiken jedes Anwendungsfalls. Die Einbeziehung expliziter Strafen für schwerwiegende Fehler und die Anerkennung der Enthaltung als legitime Entscheidung lenken das Lernen und die Auswahl von Modellen in Richtung sicherer Verhaltensweisen. Diese Logik ist nicht nur für die Forschung, sondern auch für die Produktentwicklung relevant: Sie kann in Prompts (oder Anweisungen), in Entscheidungsrichtlinien und in Produktionsmetriken implementiert werden. Dazu müssen die Enthaltungsrate, die an hohes Vertrauen gebundene Genauigkeit und die Fehler mit den größten Auswirkungen überwacht werden.

Die Formulierung von Anweisungen kann operative Vertrauensschwellen sowie Standardmeldungen für Enthaltungen enthalten. Interne Bewertungsabläufe können von einer binären Bewertung zu einem Schema mit Strafen für Fehler und Anerkennung korrekter Ablehnungen übergehen. Pipelines, die Dokumentenabrufe verwenden, sollten bei schwachen Beweisen eine ausdrückliche Bestätigung verlangen. Zudem sollte die Beobachtbarkeit des Systems Kalibrierungsmetriken umfassen, um Abweichungen zu erkennen und die Schwellenwerte mit realen Daten anzupassen. Aus dem Vorstehenden lässt sich jedoch nicht ableiten, dass die Modelle im menschlichen Sinne „lügen” oder Halluzinationen zufällige Fehler sind, die mit mehr Daten oder Rechenleistung verschwinden werden.

Es wird nicht vorgeschlagen, Innovationen zu bremsen, sondern die Anreize sollen neu ausbalanciert werden, damit der technische Fortschritt zu Systemen führt, die besser reagieren und erkennen, wann sie schweigen müssen. Und die Abdeckung? Durch die Explizierung der Schwellenwerte können wir für jeden Bereich den geeigneten Betriebspunkt wählen. In Bereichen mit geringem Risiko bevorzugen wir möglicherweise eine größere Abdeckung mit lockereren Schwellenwerten. In sensiblen Anwendungen hingegen sind strengere Schwellenwerte und häufige Enthaltungen ein Zeichen von Verantwortung und nicht von Schwäche. In allen Fällen ist das Erfolgskriterium, „etwas Verlässliches zu sagen” und nicht „etwas zu sagen”.

Verwandte Seiten