- De Turingtest is een methode voorgesteld door Alan Turing om te onderzoeken of een machine een menselijk gesprek zo goed kan nabootsen dat iemand niet doorheeft dat hij met een computer praat.
- In plaats van te bewijzen dat een machine “denkt” als een mens, kijkt de test of een machine menselijk gedrag via dialoog overtuigend kan nadoen, soms met trucs zoals typfouten of informeel taalgebruik.
- Het slagen voor de Turingtest betekent niet dat een machine bewustzijn heeft; het laat alleen zien dat hij menselijk gesprek overtuigend kan nabootsen, wat discussies oproept over intelligentie en wat het betekent om te “denken”.
Wat is de Turingtest en hoe werkt die?
De Turingtest is een AI-test om te bepalen of een computer via een chatgesprek een mens kan overtuigen dat hij ook mens is. Een mens krijgt de taak te beoordelen of de 'persoon' waarmee hij praat een mens of een computer is. Als hij denkt met een mens te praten, terwijl het in werkelijkheid een computer is, dan heeft de computer de Turingtest doorstaan.
Kortom, het is een test om te beoordelen of een computer een mens zo overtuigend kan nadoen dat hij een mens voor de gek kan houden. Natuurlijk valt er veel te bespreken over deze test.
Wat is het doel van de Turingtest?
Dit lijkt misschien een vreemde vraag, want het doel lijkt duidelijk: weten of een machine een mens overtuigend kan nadoen in een chatgesprek. Toch zijn er diepere overwegingen.
Testen we of een machine echt het denkvermogen of de intelligentie van een mens kan nabootsen, of alleen of het een mens kan laten geloven dat het menselijk is? Er is een verschil.
Het nabootsen van mensen op het gebied van denkvermogen of intelligentie is waar mensen meestal aan denken bij de Turingtest – dat mensen echt het verschil niet kunnen zien tussen een gesprek met een mens of een machine. Maar zo was de test oorspronkelijk niet opgezet, want het 'misleiden' van mensen was toegestaan. Bijvoorbeeld, door spelfouten te maken kan een computer een mens laten denken dat hij met een mens praat, omdat een machine normaal gesproken geen spelfouten maakt.
Het onderliggende probleem is dat testen regels hebben en daardoor altijd op bepaalde punten tekortschieten. Bijvoorbeeld, hoe lang je met de testpersoon praat maakt uit. Het is makkelijker om een mens vijf minuten na te doen dan honderd uur lang. Trucs kunnen werken bij de korte versie, maar niet bij de lange.
Maakt het uit wie de Turingtest uitvoert?
Een wetenschapper die getraind is om machines van mensen te onderscheiden, is veel moeilijker te misleiden dan iemand zonder training – niet alleen vanwege het beoordelingsvermogen van de wetenschapper, maar ook omdat hij weet welke vragen hij moet stellen.
Zelfs als de computer een “denkniveau” en intelligentie heeft vergelijkbaar met een mens, is dat misschien niet genoeg om de tester te misleiden. De computer kan bijvoorbeeld te perfect of te emotieloos reageren.
Er zijn zelfs filosofische vragen rondom de Turingtest, zoals of computers met een algemene menselijke intelligentie ook echt kunnen “denken” of bewustzijn hebben. Dit was deels een vraag die Alan Turing met deze test probeerde te omzeilen. Als een machine een mens nauwkeurig kan nabootsen, dan “denkt” hij voor alle praktische doeleinden.
Natuurlijk betekent dat niet dat het bewustzijn heeft of denkt zoals een mens. Sterker nog, het is zeker dat het niet denkt zoals mensen dat doen. Het interessante aan deze vraag is vooral het praktische aspect. Vliegtuigen vliegen bijvoorbeeld. Dat is wat telt. Het is veel minder relevant dat ze niet vliegen zoals vogels dat doen.
De Turingtest kijkt naar het resultaat, niet naar de manier waarop het resultaat wordt bereikt.
Belangrijker is dat de Turingtest meestal wordt gezien als een situatie waarin machine-intelligentie minstens het niveau van menselijke intelligentie heeft bereikt. Slechts een kleine groep is geïnteresseerd in de vraag of een machine technisch gezien geslaagd is voor de Turingtest, gezien alle hierboven beschreven tekortkomingen.
Hoewel het slagen voor een Turingtest technisch indrukwekkend kan zijn, vooral als de test lang duurt en wordt uitgevoerd door deskundigen, is het veel minder indrukwekkend dan een machine die iedereen altijd kan misleiden. Natuurlijk, hoe langer de test duurt en hoe hoger het kennisniveau van de beoordelaars, hoe meer deze twee scenario’s op elkaar gaan lijken.
Zijn we dichtbij een computer die de Turingtest haalt?
Nu je weet wat de test inhoudt, is de volgende vraag: "Zijn we al in de buurt van een computer die de test haalt?" (oftewel: het bereiken van algemene menselijke intelligentie). Het korte antwoord is: “Nee”.
Hoewel er enorme vooruitgang is geboekt in Natural Language Processing (het vermogen van een computer om de bedoeling achter een enkele gesproken zin te herkennen, de technologie achter spraakassistenten), zijn we nog ver verwijderd van algemene menselijke intelligentie.
De huidige technologie is niet goed in het omgaan met ambiguïteit (de betekenis achter dubbelzinnige uitspraken begrijpen), geheugen (eerder genoemde feiten meenemen in het gesprek) of context (feiten meenemen die niet uitgesproken zijn, maar wel relevant). Kortom, de huidige technologie voldoet bij lange na niet aan wat nodig is.
Een deel van het probleem is dat huidige AI-technologie enorme hoeveelheden data nodig heeft om te leren. Elk domein met veel herhalende data is geschikt voor AI, zoals spraakherkenning en beeldverwerking, inclusief zelfrijdende auto's.
Succes in NLP komt voort uit het feit dat er vrijwel onbeperkt veel data beschikbaar is voor losse uitspraken en vragen zonder context of geheugen. Als ik zeg: "Ik wil sinaasappelsap kopen", is dat meestal een eenvoudige uitspraak die geen extra informatie over context of geheugen nodig heeft om te begrijpen. De bedoeling is: "Sinaasappelsap kopen".
Als er wel context of geheugen meespeelt, wordt het ingewikkelder. Als ik zeg dat ik “sinaasappelsap wil kopen”, maar eerder heb verteld dat ik een financieel handelaar ben in sinaasappelsap, dan moet je begrijpen dat ik in deze context een financieel product wil kopen dat geld oplevert als de prijs van sinaasappelsap stijgt.
Hoe ziet onze data er dan uit? “Sinaasappelsap kopen” betekent: een fles sinaasappelsap kopen in de winkel OF als eerder is gezegd dat iemand een financieel handelaar in sinaasappelsap is, betekent het dat hij een financieel product wil kopen dat gekoppeld is aan de prijs van sinaasappelsap.
Als onze handelaar net heeft gezegd dat hij dorst heeft, bedoelt hij dat hij een fles sinaasappelsap wil kopen in de winkel. Dus voegen we een extra datapunt toe: OF als eerder is gezegd dat iemand een financieel handelaar in sinaasappelsap is, maar recent heeft gezegd dat hij dorst heeft, betekent het dat hij een fles sinaasappelsap wil kopen.
Een financieel bedrijf zou snel in de problemen komen als ze een handelsbot lanceren waarvan gebruikers denken dat die menselijke "intelligentie" heeft.
Is het onmogelijk om de Turingtest te halen?
Gespreksdata heeft helaas veel dimensies. Oneindig veel. Dat betekent dat machine learning-algoritmes toegang zouden moeten hebben tot datasets met grote hoeveelheden data voor elke mogelijke dimensie, en dat is natuurlijk onmogelijk.
Dat betekent natuurlijk niet dat slagen voor de Turingtest onmogelijk is. We weten dat het kan, want we hebben de technologie al in onze hersenen. Net zoals mensen eeuwen geleden wisten dat vliegen mogelijk was door vogels te observeren.
Het probleem is dat onze aanpak van AI hier niet gebaseerd kan zijn op big data, omdat big data met voldoende dimensies niet bestaat. Er zijn simpelweg te veel variabelen, te veel dimensies. Zelfs nu krijgt Google dagelijks 800 miljoen zoekopdrachten die het nog nooit eerder heeft gezien. Dat geeft aan hoe lastig de data-aanpak is.
Ray Kurzweil bij Google volgt een aanpak die tot op zekere hoogte probeert het menselijk brein na te bootsen. Hij schat dat we rond 2029 algemene intelligentie zullen bereiken en in staat zullen zijn om een zeer moeilijke Turingtest te doorstaan.
Zijn voorspelling is gebaseerd op de aanname dat de vooruitgang op dit gebied exponentieel zal verlopen en dat zelfs relatief bescheiden vooruitgang vandaag veel belangrijker is dan het lijkt, als je ervan uitgaat dat we ons op een exponentieel pad van ontwikkeling bevinden.
Of hij gelijk heeft, zullen we moeten afwachten, maar het geeft wel aan dat het zeer onwaarschijnlijk is dat de doorbraak binnen nu en 10 jaar zal plaatsvinden.
Wat zou het betekenen als een machine een geloofwaardige Turingtest zou doorstaan?
Het laatste punt is: wat zou het betekenen als een machine een geloofwaardige Turingtest doorstaat? Als de machine de test haalt door gebruik te maken van big data-methodes, vergelijkbaar met hoe machines mensen verslaan bij bordspellen, zelfs de complexe, dan zijn de gevolgen minder groot dan wanneer de machine slaagt via een hersenreplicatie-aanpak.
De hersenreplicatie-aanpak zou betekenen dat de machine waarschijnlijk dichter bij 'denken' komt zoals wij dat als mensen definiëren. Het zou betekenis kunnen afleiden uit minimale voorbeelden, zoals mensen dat doen, in plaats van honderden voorbeelden van exact hetzelfde geval nodig te hebben om betekenis af te leiden.
Zoals hierboven genoemd, is het waarschijnlijker dat een 'hersenenreplicatie'-aanpak de doorbraak zal bieden, omdat een big data-aanpak niet mogelijk is. Dit zou waarschijnlijk betekenen dat machines algemene intelligentie hebben bereikt, niet alleen in gesprekken, maar op meerdere gebieden.
De gevolgen hiervan kunnen nauwelijks overschat worden, want dit zou waarschijnlijk leiden tot een volledige reset van de samenleving. Zeker als machines zichzelf op betekenisvolle manieren kunnen verbeteren, wat kan leiden tot een exponentiële toename van hun intelligentie in een positieve spiraal die het leven zoals we dat kennen zal veranderen.
Interacties tussen mensen en machines
Als we het bij meer alledaagse zaken houden, is het goed om te bedenken dat zelfs als een machine gelijkwaardig is aan een mens, dat niet betekent dat we er op dezelfde manier mee omgaan als met mensen. Dat is bij mensen immers ook zo. Interactie met mensen is niet altijd efficiënt. Uitleggen aan een collega hoe iets moet via de telefoon kan omslachtig en inefficiënt zijn in situaties waarin het makkelijker zou zijn om het gewoon te laten zien. Was er maar een grafische interface voor mensen via het web!
Spraakinterfaces (of chatgebaseerde interfaces) hebben duidelijk beperkingen als het gaat om het invoeren of tonen van informatie. Er zijn situaties waarin het veel efficiënter is om informatie grafisch te tonen of op een grafische interface te klikken dan een spraakinterface te gebruiken. Botplatforms zijn daarom zo ontworpen dat ze altijd proberen de gebruiker terug te brengen naar het gewenste pad en het gesprek niet te laten afdwalen.
Mijn punt is ook dat computers niet, zoals mensen, beperkt zijn in de interfaces die ze kunnen gebruiken om informatie te ontvangen of te geven. Daarom zullen gesprekken met machines per definitie de optimale interface voor de taak gebruiken.
Hoewel het slagen voor de Turingtest een enorme mijlpaal zou zijn op het gebied van interactie tussen mens en computer, zullen de daadwerkelijke 'gesprekken' tussen mens en computer niet beperkt blijven tot alleen spraak en tekst.
Veelgestelde vragen
Hoe verhoudt de Turingtest zich tot andere maatstaven voor AI, zoals de Winograd Schema Challenge of de ARC Challenge?
De Turingtest kijkt of AI menselijke gesprekken kan nabootsen, maar nieuwere benchmarks zoals de Winograd Schema Challenge en de ARC Challenge richten zich meer op redeneren, gezond verstand en probleemoplossend vermogen. Zaken die diepere intelligentie laten zien in plaats van oppervlakkige imitatie.
Wordt de Turingtest nog steeds als relevant beschouwd in modern AI-onderzoek, of zijn er tegenwoordig betere alternatieven?
De Turingtest is nog steeds een nuttig gedachte-experiment en een mijlpaal, maar veel onderzoekers vinden hem inmiddels achterhaald. Moderne tests richten zich meer op het meten van echt begrip, logica en generalisatie.
Hoe beïnvloeden culturele of taalkundige vooroordelen de resultaten van een Turingtest?
Ja. AI kan uitdrukkingen, humor of verwijzingen die aan specifieke culturen of talen zijn verbonden verkeerd begrijpen, waardoor het in bepaalde contexten makkelijker te herkennen is als niet-menselijk.
Hoe zou het slagen voor de Turingtest onze definitie van 'mens-zijn' veranderen?
Als een machine een strenge Turingtest zou doorstaan, zou dat ons kunnen dwingen opnieuw na te denken of mens-zijn draait om biologie of om gedrag, en wat onze manier van denken nu eigenlijk zo uniek maakt.
Welke soorten vragen zijn doorgaans het meest effectief om niet-menselijke eigenschappen van AI bloot te leggen?
Vragen die afhankelijk zijn van context, emotionele nuance of gezond verstand uit de echte wereld, zoals het interpreteren van sarcasme, vage verwijzingen of tegenstrijdige informatie, zijn meestal de snelste aanwijzingen.





.webp)
