Myślisz, że Joaquin Phoenix zakochałby się w Scarlett Johansson, gdyby zapytał ją, ile Rjest w truskawce? Jeśli jesteś na LinkedIn, wiesz, że odpowiedź brzmi 3 (lub wiesz, jeśli potrafisz czytać).

Ale dla chatbotów AI nie zawsze jest to takie proste.
Prawdopodobnie widzieliście ludzi naśmiewających się z absurdalności halucynacji SI. Aby być uczciwym, model sztucznej inteligencji z pozornie nieskończoną wiedzą, umiejętnościami rozumowania podobnymi do ludzkich i błyskawicznym wykonywaniem zadań, który nie radzi sobie z zadaniem matematycznym na poziomie przedszkola, jest, cóż, trochę absurdalny.
Ale za zabawą i grami kryje się poważniejsza - i potencjalnie podstępna - rzeczywistość.
W tym artykule omówię halucynacje AI - czym są, co je powoduje, dlaczego są ważne i jakie środki można podjąć, aby im zapobiec.
Czym jest halucynacja AI?
Halucynacja AI ma miejsce, gdy model AI przedstawia informacje, które są niedokładne, mylące lub całkowicie sfabrykowane. Te fałszywe informacje mogą wydawać się wiarygodne, a w wielu przypadkach mogą pozostać niewykryte.
Ze względu na powszechne zastosowanie LLMs, halucynacje są najczęściej wymieniane w kontekście generatywnych modeli tekstowych. W rzeczywistości stanowią one zagrożenie dla każdego zastosowania generatywnej sztucznej inteligencji.
Co powoduje halucynacje u AI?
Halucynacje AI zdarzają się, gdy modele uczą się fałszywych wzorców.

Wzorce, w kontekście sztucznej inteligencji, odnoszą się do jej zdolności do wykorzystywania indywidualnych przykładów szkoleniowych do uogólniania na niewidoczne dane. Może to być seria słów tworzących kontynuację tekstu lub rozkład pikseli obrazu odpowiadających psu.
W przypadku halucynacji LLM model uznał serię słów za najbardziej prawdopodobną odpowiedź na podpowiedź użytkownika, choć jest ona fałszywa.
Może to być spowodowane jedną lub kilkoma z poniższych przyczyn:
Dane treningowe niskiej jakości

ChatGPT i podobne LLMs są szkolone na dużej ilości danych. Dane te, choć obfite, są niedoskonałe ze względu na:
- Luki w niektórych tematach
- Odzwierciedlenie rzeczywistych uprzedzeń
- Celowa dezinformacja lub nieoznakowana satyra
- Stronniczy, jak w przypadku danych niezrównoważonych lub "skośnych".
Rozważmy scenariusz, w którym model został wytrenowany na podstawie informacji o wszystkich greckich bogach z wyjątkiem jednego.
Jego zdolność do rysowania statystycznych powiązań między tematami podobnymi do greckiej mitologii - miłością, etyką, zdradą - może sprawić, że połączy jakąś wymyśloną mitologię, którą uzna za "prawdopodobną", biorąc pod uwagę swój model statystyczny.
Jest to również widoczne w generowaniu obrazów, gdzie większość podpowiedzi dla kobiecego podmiotu tworzy hiper-seksualne obrazy. Nastawienie na jeden konkretny rodzaj przedstawienia warunkuje rodzaje generowanych obrazów.
Pisownia truskawki prawdopodobnie pojawiła się w danych treningowych w kontekście dyskusji na temat podwójnego R, notorycznego punktu bólu osób niebędących rodzimymi użytkownikami języka angielskiego. W tym przypadku liczba 2 lub słowo "double" prawdopodobnie pojawiły się w związku z pisownią tego słowa.
Z drugiej strony jest mało prawdopodobne, aby dane wspominały o tym, że ma 3 R.
Wynik jest absurdalny, ponieważ pytanie brzmi: w jakich okolicznościach ktoś napisałby słowo, a następnie zapytał o jego pisownię?
Architektura modelu i metoda generowania
Modele są zbudowane z niezwykle złożonych architektur sieci neuronowych. Niewielkie różnice wpływają na sposób, w jaki modele wchodzą w interakcję z danymi szkoleniowymi i monitami wejściowymi. Zdolność modelu do łagodzenia halucynacji podlega stopniowemu doskonaleniu poprzez rygorystyczne badania i testy.
Do tego dochodzi sposób generowania. Słowo po słowie (a właściwie słowo po słowie), modele przewidują najbardziej prawdopodobne słowo do naśladowania. Tak więc:
"Szybki brązowy lis przeskakuje nad leniwym ___".

Najprawdopodobniej następnym słowem będzie "pies". Możliwe są jednak inne słowa. A generowanie oparte wyłącznie na określeniu jednego najbardziej prawdopodobnego następnego słowa daje nieciekawe, przewidywalne wyniki.
Oznacza to, że trzeba stosować kreatywne metody próbkowania, aby odpowiedzi były ekscytujące, ale spójne. Czyniąc to, fakty czasami wymykają się szczelinom.
Overfitting

Overfitting ma miejsce, gdy model jest trenowany w celu przewidywania danych tak dokładnie, że nie uogólnia się na nowe dane wejściowe.
Tak więc, gdybym był modelem (jak mówi moja mama, że powinienem być), to byłbym odpowiednio wyszkolony, gdybym rozpoznawał psy jako:
Futrzasty, z opadającymi uszami, figlarny i z małym brązowym noskiem.
Ale byłbym niedopasowany, gdybym rozpoznał je tylko jako:
Ma brązową kropkę pod brodą, odpowiada na imię "Frank" i całkowicie przeżuł moją dobrą parę Nikesów.
W kontekście LLMzwykle wygląda to jak powtarzanie informacji widzianych w danych treningowych, zamiast wycofywania się tam, gdzie nie zna odpowiedzi.
Załóżmy, że pytasz chatbota o politykę zwrotów danej firmy. Jeśli jej nie zna, powinien cię o tym poinformować. Chociaż jeśli jest zbyt dopasowany, może zwrócić politykę podobnej firmy.
Słaba zachęta
Firmy wydają certyfikaty w zakresie szybkiej inżynierii, wiedząc, że sztuczna inteligencja jest tylko tak dobra, jak jej dane wejściowe.
Dobrze sformułowana zachęta jest precyzyjnie sformułowana, unika niszowej terminologii i zapewnia cały niezbędny kontekst.
Dzieje się tak, ponieważ halucynacje występują na granicy wielu wyjść o niskim prawdopodobieństwie.
Powiedzmy, że pytasz "jaka jest fabuła dziewczyny rekina?". Teraz człowiek myśli "huh, shark girl". W świecie statystyk możliwości są następujące:
- The Adventures of Sharkboy and Lavagirl - dość popularny film dla dzieci z 2005 roku o podobnej nazwie.
- Horror/thriller z 2024 roku zatytułowany Shark Girl - mniej popularny, ale bardziej aktualny i dokładny.
- Książka dla dzieci o tej samej nazwie z początku tego roku - którą model mógł zindeksować lub nie.
Żaden z nich nie jest oczywistym wyborem, co skutkuje "bardziej płaskim" rozkładem prawdopodobieństwa z mniejszym zaangażowaniem w jeden temat lub narrację. Bardziej skuteczna podpowiedź zapewniłaby kontekst, tj. określiłaby, do którego przykładu odnosi się użytkownik.
Ta zupa niejednoznaczności i stycznego znaczenia może wywołać odpowiedź, która jest właśnie taka: wymyślona ogólna fabuła do historii związanej z rekinami.
Zmniejszenie ryzyka wystąpienia halucynacji polega na zmniejszeniu niepewności.
Rodzaje halucynacji SI
Do tej pory mówiłem o halucynacjach w ogólnych zarysach. W rzeczywistości dotykają one niemal wszystkich aspektów sztucznej inteligencji. Jednak dla jasności najlepiej jest rozważyć różne kategorie.
Błędy rzeczowe
Tutaj właśnie pasuje przykład z truskawkami. Istnieją błędy w szczegółach stwierdzeń opartych na faktach. Mogą one obejmować rok, w którym miało miejsce określone wydarzenie, stolicę kraju lub dane statystyczne.

Drobne szczegóły w skądinąd dobrej odpowiedzi mogą być szczególnie podstępne, zwłaszcza jeśli chodzi o szczegóły, których ludzie często nie pamiętają, takie jak dokładne liczby.
Fabrykowana zawartość
W 2023 r. Bard Google fałszywie twierdził, że teleskop Jamesa Webba został użyty do zrobienia pierwszych zdjęć egzoplanet. Nie była to kwestia nieścisłości technicznych - była to zwykła nieprawda.
Mogą to być śmiałe stwierdzenia, jak powyżej, ale częściej pojawiają się jako adresy URL, które prowadzą donikąd, lub wymyślone biblioteki kodu i funkcje.
Warto zauważyć, że granica między błędami rzeczowymi a sfabrykowanymi treściami nie zawsze jest wyraźna.
Powiedzmy, że omawiamy jakiegoś badacza. Jeśli zacytujemy jego artykuł, ale pomylimy rok, będzie to błąd rzeczowy. Jeśli pomylimy nazwisko, to co? Co z nazwiskiem i rokiem?
Dezinformacja
Może to należeć do jednej z dwóch poprzednich kategorii, ale odnosi się do fałszywych informacji, których źródło jest bardziej przejrzyste.
Sztuczna inteligencja Google polecająca pizzę z klejem i jedzenie kamieni jest tego doskonałym przykładem; materiał źródłowy jest oczywiście satyryczny i ogólnie nieszkodliwy - komentarze Reddit napisane przez The Onion, ale szkolenie modelu tego nie uwzględniło.

Ryzyko związane z halucynacjami AI
1. Utrata zaufania
Doceniamy swobodę przekazywania naszych zadań sztucznej inteligencji, ale nie kosztem naszego zaufania.
Niedawna wpadka Cursor AI - bot obsługi klienta wymyślający restrykcyjną politykę - skłoniła wielu użytkowników do anulowania subskrypcji, kwestionując jej niezawodność.
2. Koszt
Sztuczna inteligencja zajęła pierwsze miejsce w wielu firmach i choć jest to dobra rzecz, pomyłka może być kosztowna.
Halucynacja Jamesa Webba z Google spowodowała spadek wartości akcji Alphabet o 100 miliardów dolarów w ciągu kilku godzin. I to jeszcze przed kosztami ponownego szkolenia modeli.
3. Szkodliwa dezinformacja
Śmiejemy się z absurdalności pizzy z klejem, ale co z wprowadzającymi w błąd dawkami medycznymi?
Będę pierwszym, który zamieni czytanie ostrzeżeń drobnym drukiem na szybką odpowiedź od AI. Ale co, jeśli się myli? Prawie na pewno nie uwzględni wszystkich możliwych schorzeń.
3. Bezpieczeństwo i złośliwe oprogramowanie
Jak wspomniano, sztuczna inteligencja często wymyśla nazwy bibliotek kodu. Kiedy próbujesz zainstalować nieistniejącą bibliotekę, nic się nie dzieje.
Wyobraźmy sobie teraz, że haker osadza złośliwe oprogramowanie w kodzie i przesyła je pod nazwą powszechnie znanej biblioteki. Instalujesz bibliotekę i 💨poof💨: jesteś zhakowany.
Takie zjawisko istnieje i nazywa się slopsquatting.
Pomijając obrzydliwą nazwę, nigdy nie zaszkodzi krytycznie podchodzić do tego, co się instaluje i dokładnie sprawdzać egzotycznie brzmiące nazwy bibliotek.
Kroki zapobiegające halucynacjom sztucznej inteligencji
Jeśli nie trenujesz modeli, niewiele możesz zrobić po stronie danych i architektury.
Dobrą wiadomością jest to, że nadal istnieją środki ostrożności, które można podjąć, a mogą one zrobić różnicę w wysyłce wolnej od halucynacji sztucznej inteligencji.
Wybierz model i platformę, którym możesz zaufać
Nie jesteś zdany na siebie. Firmy zajmujące się sztuczną inteligencją są zainteresowane utrzymaniem zaufania, a to oznacza brak halucynacji.
W zależności od tego, co robisz ze sztuczną inteligencją, prawie zawsze masz co najmniej kilka opcji, a dobra platforma sztucznej inteligencji sprawia, że jest to dostępne. Platformy te powinny być przejrzyste w kwestii tego , jak łagodzą halucynacje.
Użyj RAG (Retrieval-Augmented Generation)

Nie zmuszaj modelu do polegania na własnej wiedzy. Wyposażenie modelu w RAG jasno pokazuje, jakie informacje są dostępne i gdzie je znaleźć.
Najlepiej jest uruchomić AI na platformie z prostymi instrukcjami, jak wdrożyć skuteczny RAG.
Dodaj szczegółowe instrukcje
Jeśli słyszałeś to raz, słyszałeś to tysiące razy: garbage in, garbage out.
"Odpowiedz na pytanie użytkownika" nie gwarantuje sukcesu. Jednak coś takiego jak:
# Instrukcje
Odnieś się wyłącznie do dokumentu FAQ. Jeśli nie ma tam odpowiedzi:
* Grzecznie poinformuj użytkownika, że informacje są niedostępne.
* Zaoferuj eskalację rozmowy do ludzkiego agenta.
utrzyma agenta w ryzach. Wyraźne podpowiedzi z solidnymi barierami ochronnymi to najlepsza obrona przed nieuczciwym agentem.
Weryfikacja człowieka
Jeśli chodzi o eskalację, posiadanie osoby gotowej do sprawdzenia, oceny i wyeliminowania niedociągnięć AI.
Możliwość eskalacji lub wstecznej weryfikacji rozmów pozwala dowiedzieć się, co działa, a co jest zagrożone halucynacją. Human-in-the-loop -ludzki nadzór nad przepływami pracy opartymi na sztucznej inteligencji - jest tutaj koniecznością.
Korzystaj ze sztucznej inteligencji bez halucynacji już dziś
Niepewność co do niezawodności sztucznej inteligencji może powstrzymywać firmy przed cyfrową transformacją.
Możliwości RAG Botpress, integracja człowieka w pętli i dokładne systemy bezpieczeństwa sprawiają, że sztuczna inteligencja jest bezpieczna i niezawodna. Twój agent pracuje dla Ciebie, a nie odwrotnie.
Zacznijbudować już dziś. To nic nie kosztuje.