La vérité derrière les hallucinations de l’IA générative

Author: Paul Berenguer, Business Innovation Manager
Les grands modèles de langage, même les plus avancés, génèrent de fausses déclarations, bien que plausibles, sans reconnaître leur propre incertitude. Ce phénomène s’appelle hallucination : le modèle conjecture quand il n’a pas assez de preuves et n’admet pas le « je ne sais pas ». OpenAI, à travers le document Why Language Models Hallucinate, soutient que ces hallucinations ne sont pas un caprice du logiciel ou un défaut moral des machines, mais la conséquence de la façon dont elles sont entraînées et évaluées. Si le système reçoit davantage de récompenses pour avoir pris le risque de répondre que pour s’être abstenu, il aura tendance à répondre même lorsqu’il n’est pas sûr. Comme dans un examen à choix multiples, s’il n’y a pas de pénalité pour les erreurs et répondu : « je ne sais pas », cela vaut zéro point, « deviner » maximise la note attendue.
Cet essai montre que le comportement génératif d’un modèle peut être analysé comme un problème de classification binaire (vs réponses valides invalides). De là, tout taux d’erreur dans cette classification se traduit par un taux d’erreur de génération. En principe, il convient de noter qu’il existe des cas simples où le modèle distingue le bien du mal, des cas où le modèle lui-même est inadéquat et d’autres où les faits ne suivent aucun schéma appréhensible.
De nombreux faits dans le monde sont « arbitraires » du point de vue du modèle. Le titre d’une thèse, la date d’un événement mineur ou un code alphanumérique spécifique apparaissent peut-être une seule fois dans le corpus d’entraînement. Lorsque la fréquence de ces singletons (faits isolés) est élevée, le système n’a pas suffisamment de base statistique pour généraliser et, lorsqu’on lui demande des faits rares, la tentation de conjectures augmente. Même si le corpus était parfait, l’objectif statistique de prédire le mot suivant n’empêche pas un pourcentage d’erreurs inévitables dans les domaines à faible redondance.
Le deuxième élément du phénomène apparaît après l’entraînement, lors de l’évaluation. La plupart des benchmarks et des tests standard se qualifient avec un schéma binaire : correct ou incorrect. Répondre « je ne sais pas » calcule comme un échec, ce qui pousse les modèles à offrir une réponse, même si leur probabilité de succès est modeste. Le résultat est que la calibration (correspondance entre la sécurité du système et le succès réel) se détériore. Ce biais vers la réponse se manifeste également lorsque nous incorporons des techniques conçues pour réduire les erreurs, comme la génération augmentée de récupération ou des réseaux de raisonnement plus étendus. Bien qu’utile, si le critère d’évaluation récompense la réponse et ne tient pas compte de l’abstention justifiée, le système continuera à « prendre des risques » lorsque les preuves sont insuffisantes.
La proposition centrale de la publication scientifique mentionnée est aussi directe qu’inhabituelle : introduire des objectifs de confiance explicites et accorder du crédit à l’abstention lorsque cela est approprié, afin de formuler des instructions et des mesures établissant des seuils de confiance opérationnels Si la probabilité de succès du modèle ne dépasse pas un seuil donné, la réponse attendue est « je ne sais pas », et cette abstention marquera un score neutre – ou positif – contre une conjecture erronée, selon le contexte et le coût de l’erreur. Il ne s’agit pas de demander au système de fournir des chiffres de probabilité parfaits, mais plutôt que son comportement soit conforme à des objectifs de fiabilité compréhensibles et vérifiables.
Un schéma d’évaluation avec seuils rend visibles les compromis entre couverture et précision et permet d’adapter le système aux risques de chaque cas d’utilisation. Inclure des sanctions explicites en cas d’erreur grave et reconnaître l’abstention comme une décision légitime, oriente l’apprentissage et la sélection de modèles vers des comportements plus sûrs. Cette logique n’est pas seulement pertinente pour la recherche, mais pour l’ingénierie de produit : il peut être instrumenté dans les invites (ou instructions), les politiques de décision et les métriques de production, surveillant le taux d’abstention, la précision conditionnée par une confiance élevée et les erreurs avec le plus d’impact.
La rédaction des instructions peut inclure des seuils de confiance opérationnels et des messages standard pour l’abstention. Les flux d’évaluation interne peuvent passer d’une notation binaire à un système avec pénalité en cas d’erreur et reconnaissance des refus corrects. Les pipelines qui utilisent la récupération documentaire devraient exiger une confirmation explicite lorsque les preuves sont faibles. Et l’observabilité du système devrait inclure des mesures d’étalonnage afin de détecter les écarts et d’ajuster les seuils à l’aide de données réelles. Il ne ressort pas de ce qui précède que les modèles « mentent » au sens humain du terme, ni que l’hallucination soit un défaut accidentel qui disparaîtra avec davantage de données ou de calculs.
Il n’est pas non plus suggéré de freiner l’innovation, mais de rééquilibrer les incitations afin que le progrès technique aboutisse à des systèmes qui répondent mieux et reconnaissent quand ils doivent rester silencieux. Et la couverture ? En explorant les seuils, nous pouvons choisir le bon point de fonctionnement pour chaque domaine. Dans les domaines à faible risque, nous préférons peut-être une couverture plus large avec des seuils plus souples ; dans les applications sensibles, des seuils plus stricts et des abstentions fréquentes sont un signe de responsabilité, et non de faiblesse. Dans tous les cas, le critère de réussite sera « dire quelque chose de fiable » et non « dire quelque chose »