- AI-hallucinatie treedt op wanneer modellen vol vertrouwen valse of verzonnen informatie produceren, veroorzaakt door slechte gegevenskwaliteit, overfitting of dubbelzinnige aanwijzingen.
- Hallucinaties variëren van feitelijke fouten tot verzonnen inhoud en kunnen het vertrouwen schaden, bedrijven miljarden kosten of schadelijke verkeerde informatie verspreiden.
- Belangrijke preventiestappen zijn het kiezen van betrouwbare AI-platforms, het toevoegen van retrieval-augmented generation (RAG), het maken van nauwkeurige aanwijzingen en het opnemen van menselijk toezicht.
Denk je dat Joaquin Phoenix verliefd zou zijn geworden op Scarlett Johansson als hij haar had gevraagd hoeveel R'ser in aardbei zitten? Als je op LinkedIn zit, weet je dat het antwoord 3 is. (Of, weet je, als je kunt lezen.)

Maar voor AI-chatbots is het niet altijd zo eenvoudig.
Je hebt vast wel eens mensen gezien die de draak staken met de absurditeit van AI-hallucinaties. En om eerlijk te zijn, een AI-model met schijnbaar eindeloze kennis, een menselijk redeneervermogen en een bliksemsnelle taakuitvoering die faalt bij een wiskundeprobleem op kleuterschoolniveau is, nou ja, een beetje absurd.
Maar achter de lol en de spelletjes gaat een serieuzere - en mogelijk verraderlijke - realiteit schuil.
In dit artikel ga ik het hebben over AI hallucinaties - wat ze zijn, wat ze veroorzaakt, waarom ze belangrijk zijn en maatregelen die je kunt nemen om ze te voorkomen.
Wat is AI-hallucinatie?
Er is sprake van AI-hallucinatie wanneer een AI-model informatie presenteert die onjuist, misleidend of volledig verzonnen is. Deze valse informatie kan plausibel lijken en in veel gevallen onopgemerkt blijven.
Door de wijdverspreide toepassing van LLMswordt meestal naar hallucinaties verwezen in de context van generatieve tekstmodellen. In werkelijkheid vormen ze een risico voor elke toepassing van generatieve AI.
Wat veroorzaakt hallucinatie bij AI?
AI-hallucinatie treedt op wanneer modellen verkeerde patronen aanleren.

Patronen verwijzen in de context van AI naar het vermogen om individuele trainingsvoorbeelden te gebruiken om te generaliseren over ongeziene gegevens. Dit kan een reeks woorden zijn die het vervolg van een tekst vormen, of de verdeling van beeldpixels die overeenkomen met een hond.
In het geval van de LLM heeft het model een reeks woorden beschouwd als het meest waarschijnlijke vervolg op de vraag van de gebruiker, hoewel het vals is.
Dit kan een of meer van de volgende redenen hebben:
Trainingsgegevens van lage kwaliteit

ChatGPT en vergelijkbare LLMs worden getraind op ladingen gegevens. Deze gegevens, hoe overvloedig ook, zijn onvolmaakt vanwege:
- Hiaten in bepaalde onderwerpen
- Vooroordelen uit de echte wereld weerspiegelen
- Opzettelijk verkeerde informatie of ongemarkeerde satire
- Vertekend, zoals in onevenwichtige of "scheve" gegevens.
Beschouw een scenario waarbij het model is getraind op informatie over alle Griekse goden behalve één.
Het vermogen om statistische verbanden te leggen tussen Griekse mythologie-achtige onderwerpen - liefde, ethiek, verraad - zou ertoe kunnen leiden dat het een verzonnen mythologie aan elkaar rijgt die het "waarschijnlijk" acht, gezien het statistische model.
Dit is ook duidelijk bij het genereren van afbeeldingen, waar de meeste aanwijzingen voor een vrouwelijk onderwerp hypergeseksualiseerde afbeeldingen opleveren. De voorkeur voor één bepaald type afbeelding bepaalt het soort beelden dat wordt gegenereerd.
De spelling van strawberry kwam waarschijnlijk voor in de trainingsgegevens in de context van een discussie over de dubbele R, een berucht pijnpunt van niet-moedertaalsprekers van het Engels. In dit geval is het waarschijnlijk dat het getal 2 of het woord "double" naar voren zijn gekomen in verband met de spelling van het woord.
Aan de andere kant is het onwaarschijnlijk dat de gegevens zouden hebben vermeld dat het 3 R'sheeft.
De uitvoer is absurd omdat de vraag is: onder welke omstandigheden zou iemand een woord schrijven en dan vragen hoe het gespeld wordt?
Modelarchitectuur en generatiemethode
De modellen zijn opgebouwd uit duizelingwekkend complexe neurale netwerkarchitecturen. Kleine variaties hebben invloed op de manier waarop modellen omgaan met hun trainingsgegevens en invoeraanwijzingen. Het vermogen van een model om hallucinatie te verminderen wordt steeds verder verbeterd door middel van rigoureus onderzoek en testen.
Daar komt nog bij hoe generatie wordt geïmplementeerd. Woord voor woord (eigenlijk woordstuk) voorspellen modellen welk woord het meest waarschijnlijk zal volgen. Dus:
"De snelle bruine vos springt over de luie ___."

Zal bepalen dat het meest waarschijnlijke volgende woord "hond" is. Maar andere woorden zijn mogelijk. En generatie alleen gebaseerd op het bepalen van het meest waarschijnlijke volgende woord produceert oninteressante, voorspelbare resultaten.
Dat betekent dat er creatieve bemonsteringsmethoden moeten worden gebruikt om de reacties spannend en toch samenhangend te houden. Daarbij glipt de feitelijkheid soms door de mazen van het net.
Overpassing

Er is sprake van overfitting als het model wordt getraind om de gegevens zo nauwkeurig te voorspellen dat het niet generaliseert naar nieuwe invoer.
Dus als ik een model was (zoals mijn moeder zegt dat ik zou moeten zijn), dan zou ik een goed getrainde model zijn als ik honden zou herkennen als:
Behaard, met hangende oren, speels en een klein bruin knopneusje.
Maar ik zou overdreven zijn als ik ze alleen herkende als:
Hij heeft een bruine stip onder zijn kin, luistert naar de naam "Frank" en heeft mijn goede paar Nikes helemaal opgegeten.
In de context van een LLMziet het er meestal uit als het hergebruiken van informatie uit de trainingsgegevens, in plaats van terug te krabbelen als het het antwoord niet weet.
Stel dat je een chatbot vraagt naar het retourbeleid van een bedrijf. Als hij het niet weet, moet hij je informeren. Maar als hij te handig is, kan hij het beleid van een vergelijkbaar bedrijf teruggeven.
Slechte prompting
Bedrijven geven certificaten uit in prompt engineering in de wetenschap dat AI slechts zo goed is als de input.
Een goed geformuleerde prompt is nauwkeurig geformuleerd, vermijdt nichetermen en biedt alle benodigde context.
Dit komt omdat hallucinatie gebeurt op de rand van veel laagwaarschijnlijke uitkomsten.
Stel dat je vraagt "wat is het plot van haaienmeisje?". Nu denkt een mens "huh, haaienmeisje" .In de statistiekwereld zijn de mogelijkheden:
- The Adventures of Sharkboy and Lavagirl - een behoorlijk populaire kinderfilm uit 2005 met een vergelijkbare naam.
- Een horror/thriller uit 2024 genaamd Shark Girl - minder populair maar recenter en nauwkeuriger.
- Een kinderboek met dezelfde naam van eerder dit jaar - dat het model al dan niet heeft geïndexeerd.
Geen van deze is de voor de hand liggende keuze, wat resulteert in een "vlakkere" waarschijnlijkheidsverdeling met minder toewijding aan één onderwerp of verhaal. Een effectievere prompt zou context bieden, d.w.z. duidelijk maken naar welk voorbeeld de gebruiker verwijst.
Deze soep van dubbelzinnigheid en tangentiële relevantie kan een reactie opleveren die precies dat is: een verzonnen generiek plot bij een haaiengerelateerd verhaal.
Het verlagen van je kans op hallucinaties gaat over het verlagen van onzekerheid.
Soorten AI Hallucinaties
Tot nu toe heb ik het in grote lijnen gehad over hallucinaties. De realiteit is dat het bijna alle aspecten van AI raakt. Voor de duidelijkheid is het echter het beste om de verschillende categorieën te bekijken.
Feitelijke fouten
Dit is waar het aardbeienvoorbeeld in past. Er zitten fouten in details van anders feitelijke verklaringen. Dit kunnen bijvoorbeeld het jaar zijn waarin een bepaalde gebeurtenis plaatsvond, de hoofdstad van een land of cijfers van een statistiek.

Kleine details in een verder goed antwoord kunnen bijzonder verraderlijk zijn, vooral als het gaat om details die mensen niet vaak onthouden, zoals exacte getallen.
Gefabriceerde inhoud
In 2023 beweerde Google's Bard ten onrechte dat de James Webb-telescoop was gebruikt om de eerste foto's van exoplaneten te maken. Dit was geen kwestie van technische onnauwkeurigheden, het was gewoon onwaar.
Dit kunnen boude beweringen zijn zoals hierboven, maar vaker verschijnen ze als URL's die nergens naartoe gaan, of verzonnen codebibliotheken en functies.
Het is de moeite waard om op te merken dat de grens tussen feitelijke fouten en verzonnen inhoud niet altijd duidelijk is.
Stel dat we een onderzoeker bespreken. Als we een artikel van hen citeren maar het jaar verkeerd hebben, is dat een feitelijke fout. Als we de naam verkeerd hebben, wat dan? Hoe zit het dan met de naam en het jaar?
Verkeerde informatie
Dit kan onder een van de 2 vorige categorieën vallen, maar verwijst naar valse informatie waarbij de bron transparanter is.
Een goed voorbeeld hiervan is de beroemde Google AI die lijmpizza en stenen eten aanbeveelt; het bronmateriaal is duidelijk satirisch en over het algemeen onschadelijk: Reddit-commentaren geschreven door The Onion, maar de training van het model had daar geen rekening mee gehouden.

Risico's van AI-hallucinaties
1. Verlies van vertrouwen
We waarderen de vrijheid van het uitbesteden van onze taken aan AI, maar niet ten koste van ons vertrouwen.
De recente misstap van Cursor AI - een bot van de klantenservice die een beperkend beleid verzon - heeft ertoe geleid dat veel gebruikers hun abonnement hebben opgezegd, omdat ze twijfelen aan de betrouwbaarheid.
2. Kosten
AI heeft in veel bedrijven de overhand gekregen en hoewel dat een goede zaak is, kan een misstap kostbaar zijn.
Google's James Webb hallucinatie veroorzaakte een daling van $ 100 miljard in de aandelen van Alphabet in de loop van een paar uur. En dat is nog voor de kosten van het opnieuw trainen van de modellen.
3. Schadelijke desinformatie
We lachen om de absurditeit van lijmpizza, maar hoe zit het met misleidende medische doses?
Ik ben de eerste die de kleine lettertjes met waarschuwingen inruilt voor een snel antwoord van AI. Maar wat als het fout is? Het houdt bijna zeker geen rekening met alle mogelijke medische aandoeningen.
3. Beveiliging en malware
Zoals gezegd verzint AI vaak de namen van codebibliotheken. Als je een niet-bestaande bibliotheek probeert te installeren, gebeurt er niets.
Stel je nu voor dat een hacker malware insluit in code en deze uploadt onder de naam van een algemeen bekende bibliotheek. Je installeert de bibliotheek en 💨poof💨: je bent gehackt.
Dit bestaat, en het heet slopsquatting.
Afgezien van de grove naam, kan het nooit kwaad om kritisch te zijn over wat je installeert en om alle exotisch klinkende bibliotheeknamen dubbel te controleren.
Stappen om AI-hallucinaties te voorkomen
Als je de modellen niet traint, kun je weinig doen op het gebied van gegevens en architectuur.
Het goede nieuws is dat er nog steeds voorzorgsmaatregelen zijn die je kunt nemen, en die kunnen het verschil maken bij het verzenden van hallucinatievrije AI.
Kies een model en platform waarop u kunt vertrouwen
Je staat er niet alleen voor. AI-bedrijven hebben er alle belang bij om vertrouwen te behouden en dat betekent geen hallucinaties.
Afhankelijk van wat je met AI doet, heb je bijna altijd ten minste een paar opties, en een goed AI-platform maakt dit toegankelijk. Deze platforms moeten transparant zijn over hoe ze hallucinaties beperken.
Gebruik RAG (Retrieval-Augmented Generation)

Laat het model niet vertrouwen op zijn eigen kennis. Door je model uit te rusten met RAG wordt het duidelijk dat er informatie beschikbaar is en waar die te vinden is.
Het is het beste om AI uit te voeren op een platform met eenvoudige instructies voor het implementeren van effectieve RAG.
Grondige instructies toevoegen
Als je het één keer hebt gehoord, heb je het duizend keer gehoord: vuilnis erin, vuilnis eruit.
"De vraag van de gebruiker beantwoorden" is geen garantie voor succes. Maar iets als:
# Instructies
Raadpleeg uitsluitend het FAQ-document. Als het antwoord er niet bij staat:
* Informeer de gebruiker beleefd dat de informatie niet beschikbaar is.
* Bied aan om het gesprek te laten escaleren naar een menselijke agent.
zal je agent in toom houden. Duidelijke aanwijzingen met stevige vangrails zijn je beste verdediging tegen een losgeslagen agent.
Menselijke verificatie
Over escalatie gesproken: iemand klaar hebben staan om de tekortkomingen van AI te inspecteren, evalueren en de kop in te drukken.
De mogelijkheid om gesprekken te escaleren of achteraf te verifiëren laat je uitzoeken wat werkt en wat het risico loopt op hallucinatie. Human-in-the-loop -menselijk toezicht op AI-gestuurde workflows - is hier een must.
Gebruik vandaag nog hallucinatievrije AI
Onzekerheid over de betrouwbaarheid van AI weerhoudt bedrijven mogelijk van digitale transformatie.
De RAG-mogelijkheden, human-in-the-loop integratie en grondige beveiligingssystemen van Botpressmaken AI veilig en betrouwbaar. Je agent werkt voor jou, niet andersom.
Beginvandaag met bouwen. Het is gratis.