Een Arabische chatbot is een programma dat Arabische inhoud kan begrijpen en analyseren. Tegenwoordig kunnen we menselijke gesprekken in het Arabisch tussen een computer en een mens simuleren en verwerken.
Recente doorbraken in natuurlijke taalverwerkingstechnologie (NLP) maken het eenvoudig om Arabische chatbots te creëren. De nieuwe Arabische AI-chatbottechnologie gebruikt machine learning om de structuur van de taal te begrijpen, evenals de 'betekenis' van de woorden.
Arabisch is de vierde meest gesproken taal op het internet, maar het is een van de moeilijkste talen voor niet-moedertaalsprekers om te leren.
Dit komt doordat het op een aantal punten verschilt van de meeste andere talen.
Naast het bovenstaande zijn er veel vormen en dialecten van het Arabisch. Deze vormen en dialecten zijn aan elkaar verwant, maar overlappen niet. In feite kan het voorkomen dat een spreker van het ene dialect het andere dialect niet begrijpt; voor alle praktische doeleinden zijn het dus verschillende talen.
Al deze factoren maken het moeilijker voor mensen om Arabisch te leren.
Betekent dit echter ook dat het moeilijker is voor machines om te leren? Niet verrassend is het antwoord ja.
Al het bovenstaande zorgt voor uitdagingen bij Arabische natuurlijke taalverwerking (NLP). De eerste stap voor elk NLP-algoritme is het begrijpen van de taal, oftewel het opdelen van zinnen in afzonderlijke betekenisvolle eenheden. Deze taak heet officieel het tokeniseren van de taal, waarbij elke afzonderlijke eenheid een token wordt genoemd.
Hoe systematischer en ordelijker de taal, hoe makkelijker het is om te tokeniseren.
Dezelfde uitdagingen die Arabisch moeilijk maken voor mensen, maken het ook moeilijker om te tokeniseren dan de meeste andere veelvoorkomende talen.
Om het belang van de nieuwste doorbraken te begrijpen, moeten we eerst weten hoe een taalmodel voor NLP vroeger werd gemaakt.
Het tokeniseren van de taal vereiste veel handmatig werk van de NLP-onderzoeker. Elke taal moest afzonderlijk en grotendeels handmatig worden getokeniseerd.
Dit was vooral lastig voor Arabische bots, zoals je je kunt voorstellen.
Zodra de taal getokeniseerd was, konden de AI-algoritmen worden toegepast om de taal te begrijpen, oftewel een betekeniskaart te maken van hoe woorden zich tot elkaar verhouden.
Deze stap van het begrijpen van de taal kon worden geautomatiseerd als het tokeniseren betrouwbaar was. Het probleem was echter dat het tokeniseren van het Arabisch lastig was, waardoor zelfs de algoritmen voor begrip handmatig moesten worden ingesteld, samen met het tokeniseren.
En het eindresultaat was niet goed. Het niveau van Arabisch begrip was, vergeleken met bijvoorbeeld Engels, laag. Natuurlijk is er altijd veel meer onderzoek gedaan naar Engels dan naar Arabisch, wat ook meespeelde, maar de moeilijkheid van de taal maakte het bijna onmogelijk om een goed resultaat te behalen.
Zoals AI-onderzoekers vaak doen, vroegen ze zich af of het tokeniseren zelf door machine learning kon worden gedaan. Dit zou betekenen dat de algoritmen voor tokeniseren en begrip onafhankelijk van de onderliggende taal konden werken (taalneutraal), waardoor het trainen van de AI op een taal veel sneller en beter zou gaan.
En hier werd uiteindelijk de doorbraak bereikt, eind 2018. De AI kon in het Arabisch worden getraind zonder handmatige tussenkomst, waardoor de prestaties van de NLP veel beter werden.
Arabische chatbotplatforms konden direct veel beter worden en het begrip van de chatbots in het Arabisch kwam op hetzelfde niveau als bij andere talen.
Dat deze doorbraak plaatsvond, betekent niet automatisch dat de kwaliteit van Arabische chatbots direct verbeterde.
Om deze voordelen bij klanten te brengen, moesten chatbot-AI-platforms eerst hun algoritmen bijwerken naar de nieuwste technologie. Gezien hun investeringen in de vorige technologie, is dit niet iets wat snel gebeurt.
Bovendien zijn er veel functies die de platforms moeten toevoegen om te zorgen dat Arabische chatbots een goede gebruikerservaring bieden. Zo moeten de gebruikersinterfaces geschikt zijn voor Arabisch. Dit kan zo simpel zijn als zorgen dat de uitlijning in de chat klopt en dat knoppen in de juiste volgorde worden weergegeven.
Werken met meerdere talen op verschillende platforms kan lastig zijn. Sommige platforms vereisen dat bots in verschillende talen als aparte bots worden gebouwd, wat uiteraard erg inefficiënt is.
Een goed platform is echt meertalig en maakt het dus mogelijk om alle inhoud binnen de gebruikersinterface van het platform in meerdere talen te vertalen.
Bovendien moet de taal als variabele in het gesprek worden bijgehouden, zodat de AI de taal nauwkeurig kan detecteren en ontwerpers logica rond de taal kunnen bouwen.
Naast taalspecifieke functies moet de algemene functionaliteit van het chatbotplatform uitstekend zijn om een goede chatbot te maken. Er zijn twee categorieën functionaliteit die belangrijk zijn.
Uiteindelijk is de kwaliteit van de chatbotervaring voor de eindgebruiker direct gerelateerd aan de kracht van het gebruikte hulpmiddel, van taalbegrip tot grafische gebruikersinterfaces.
In de Arabische wereld komt het bovendien vaak voor dat bedrijven een on-premise Arabische chatbot vereisen. Dit is uiteraard een belangrijke overweging bij het kiezen van een platform. Een on-premise Arabische chatbot moet gebouwd worden met een on-premise Arabisch chatbotplatform dat niet alleen een on-premise gebruikersinterface biedt, maar ook de volledige NLU-engine en het getrainde taalmodel lokaal bevat.
Zelfs met een goed platform zijn er nog steeds uitdagingen bij het maken van een uitstekende chatbot in het Arabisch. Er zijn relatief weinig Arabischsprekenden in de AI-wereld, waardoor het lastig kan zijn om de juiste mensen voor het project te vinden. Hoewel het niet nodig is om mensen te zoeken die de onderliggende NLU-algoritmen schrijven, omdat deze standaard worden meegeleverd, kan het lastig zijn om bekwame ontwerpers te vinden die alle talen of dialecten spreken die de chatbot ondersteunt. Het is daarom belangrijk dat het chatbotplatform het mogelijk maakt om de inhoud en vertalingen eenvoudig bij te werken en te onderhouden door niet-technische mensen, aangezien de ontwerper waarschijnlijk niet alle ondersteunde talen spreekt.
Het feit dat hoogwaardige Arabische chatbots nu beschikbaar komen, betekent uiteraard dat de adoptie van deze technologie zal toenemen. Deze groeiende adoptie zal het probleem van beperkte middelen oplossen en potentiële kopers van de technologie een duidelijk beeld geven van de best practices die gevolgd moeten worden.
De doorbraken in NLP-technologie gelden niet alleen voor Arabische chatbots, maar ook voor andere AI-toepassingen. We zien nu veelzijdige systemen die Arabische AI op verschillende manieren gebruiken — van sentimentanalyse in nieuwsberichten tot het samenvatten of genereren van tekst die voorheen alleen door mensen kon worden gedaan. Vaak wordt een chatbot gebruikt als gebruikersinterface niet alleen voor verschillende AI-technologieën, maar ook om eindgebruikers te helpen bij het gebruik van schermen van andere systemen, zoals websites of webapps.
Hoewel er een grote sprong is gemaakt in de kracht van Arabische NLU, kan de NLU altijd beter. Onderzoek blijft doorgaan om de NLU-engines verder te verbeteren en ongetwijfeld zullen er nieuwe doorbraken komen. Totdat NLU het niveau van mensen bereikt, blijft er werk aan de winkel.
De volgende stap voor alle NLU-engines, ongeacht de taal, is het beter ondersteunen van multi-turn dialogen. Dit betekent dat een mens een multi-turn gesprek kan voeren met de bot binnen een specifiek onderwerp, in plaats van alleen losse opdrachten of vragen te stellen. En de volgende stap voor chatbotplatforms is het eenvoudig maken om multi-turn dialogen te creëren.
Multi-turn dialogen zijn vooral belangrijk voor spraakinterfaces zoals Alexa.
Hoewel we het hier hebben over doorbraken in machine learning-gedreven tokenisatie en de implicaties voor Arabische NLP, is een verwant onderwerp Arabische spraak-naar-teksttranscriptie. Spraak-naar-tekst voor Arabisch loopt nog achter op andere talen, maar we hopen dat de vooruitgang in NLP die hier wordt beschreven, het verschil in de nabije toekomst zal verkleinen.
Creëer geweldige AI-agentervaringen.