Wat is een stemassistent?
Een spraakassistent is software die commando's in natuurlijke taal kan begrijpen en beantwoorden. Ze kunnen ook slimme assistenten worden genoemd en dit is misschien een nauwkeurigere beschrijving omdat ze in veel gevallen kunnen worden gekoppeld aan tekst via chat. Natuurlijk worden ze ook bots genoemd.
In de afgelopen jaren heeft het gebruik van spraakassistenten een hoge vlucht genomen, vooral in de vorm van spraakgestuurde thuisassistenten zoals Alexa en Google Home.
Met deze producten kunnen gebruikers software opdrachten geven om dingen te doen, gewoon met hun stem. Een gebruiker kan bijvoorbeeld muziek afspelen op Spotify of een video afspelen op Youtube, gewoon door de slimme stemassistent daartoe opdracht te geven.
De persoonlijke assistent is mogelijk gemaakt door doorbraken op het gebied van AI, met name op het gebied van natuurlijke taalverwerking.
Hoe gebruiken stemassistenten NLP voor spraakherkenning?
Natural Language Processing is een technologie waarmee computers de bedoeling achter een gesproken zin kunnen begrijpen. Dit is iets anders dan spraakherkenning, waarbij gesproken woorden worden omgezet in tekst. Spraakherkenning is natuurlijk ook nodig voor spraakgestuurde digitale assistenten. Spraakherkenning zet de gesproken woorden om in tekst en de natuurlijke taalverwerking bepaalt de intentie van de gebruiker achter de tekst.
Natural Language Processing is belangrijk en nuttig omdat mensen de spraakassistenten instrueren met verschillende zinnen die dezelfde betekenis hebben. Ze kunnen bijvoorbeeld zeggen: "Speel X af op Youtube", of "Zoek X op Youtube en speel het af" of "Speel op Youtube liedje X af", enz.
De NLP kan detecteren dat al deze zinnen dezelfde betekenis hebben. Dit is handig voor mensen, afgezien van het feit dat ze alleen met hun stem kunnen communiceren met het apparaat omdat ze geen exacte commando's of syntaxis hoeven te onthouden om het apparaat te bedienen. NLP is voor ontwikkelaars ook verrassend eenvoudig op te zetten en daarom is het een belangrijk onderdeel van elk bot-framework.
Voor- en nadelen van spraakassistenten
Iedereen die wel eens een stemassistent heeft geprobeerd, zal je vertellen dat ze voor sommige dingen goed zijn, maar niet perfect. Je kunt er bijvoorbeeld geen menselijk gesprek mee voeren. Het gesprek zal snel stuklopen als je het probeert.
Het is ook moeilijk om erachter te komen wat ze wel of niet kunnen door alleen maar met ze te communiceren. Voice blijkt een slechte interface te zijn om snel veel informatie op te zoeken. Het scannen van een webpagina is bijvoorbeeld een veel betere manier om snel informatie te krijgen.
Waar ze erg goed in zijn, zijn eenmalige commando's of vragen. Ze werken vooral goed als de gebruiker precies weet wat hij wil bereiken, bijvoorbeeld als hij een specifieke video op YouTube wil afspelen waarvan hij de naam kent, of als het antwoord op een vraag een eenvoudige zin is, zoals het antwoord op de vraag "wat is de temperatuur in mijn stad?
We vergeten vaak dat spraakassistenten gewoon een software-interface zijn. We noemen ze assistenten omdat je tegen ze kunt praten en daarom is het makkelijk om ze voor te stellen alsof ze een soort mensachtige kwaliteit hebben. Dit idee wordt nog versterkt door het feit dat we ze bij naam moeten noemen met een trefwoord, "Hey Google", "Alexa", "Siri" om ze te activeren. Zonder een trefwoord zouden ze niet weten wanneer ze worden aangesproken en dus wanneer ze moeten reageren. Het trefwoord hersenspoelt ons om de stemassistent meer te zien als een soort bijna menselijke assistent dan als een software-interface. En het hersenspoelt jonge kinderen om te geloven dat Google of Alexa een soort van Dieties zijn, wat hen wel eens blijvende schade zou kunnen berokkenen wanneer ze ontdekken dat dit werelddominante bedrijven zijn.
In werkelijkheid zijn spraakassistenten gewoon een andere software-interface, bijvoorbeeld een equivalent van een grafische interface. Een grafische interface vervult een gelijkaardige rol als een steminterface, maar kan niet op dezelfde manier gehumaniseerd worden.
Spraakinterfaces worden natuurlijk anders gebruikt dan grafische interfaces. Het blijkt dat voice-interfaces normaal gesproken naast grafische interfaces worden gebruikt, maar niet andersom.
Dit komt deels omdat voor de meeste toepassingen al grafische interfaces zijn gebouwd en het toevoegen van een steminterface aan die toepassingen gebruikers dus een andere manier van interactie met de software biedt. Zoals een stemassistent vragen om een youtube-video af te spelen. Je zou de video kunnen afspelen via de grafische interface, maar dat zou langzamer gaan.
Het is ook betwistbaar dat de grafische interface completer is dan een steminterface, omdat het erg moeilijk zou zijn om sommige taken uit te voeren via spraak die gemakkelijk kunnen worden uitgevoerd op een grafische interface. Om dit punt te begrijpen, stel je voor dat je probeert om je collega een spreadsheet voor je te laten maken door hem instructies te geven via de telefoon versus het zelf maken van de spreadsheet met behulp van de grafische interface.
Hoewel spraakinterfaces meestal niet onmisbaar zijn, bieden ze in bepaalde situaties wel een nieuw niveau van gemak. Meestal is dit gemak waar je zonder kunt leven als het nodig is, behalve in de zeldzame omstandigheden waar handsfree interactie essentieel is.
De toekomst van spraakassistenten
Gezien hun beperkingen is het de vraag of spraakassistenten in de toekomst belangrijker zullen worden of dat ze een randproduct zullen blijven.
Het is ons duidelijk dat spraakassistenten in de toekomst veel populairder zullen worden en op grote schaal zullen worden gebruikt, en wel om één reden: ze zullen volledig worden geïntegreerd met grafische gebruikersinterfaces.
Hoewel het moeilijk is om grafische gebruikersinterfaces te vervangen door spraak, is het heel goed mogelijk om een spraak- en grafische interface te combineren. Dit wordt op dit moment in zeer beperkte mate gedaan met Google Assistant (waarmee een webpagina context kan bieden) en Bixby.
De volgende generatie interfaces, die we "combinatie-interfaces" zullen noemen, zal afbeeldingen, tekst en spraak integreren tot de beste ervaring voor de gebruiker. Niet alleen zullen gebruikers hierdoor taken sneller en met minder leercurve kunnen uitvoeren (omdat spraak gebruikers in staat stelt om met software te interageren zonder exacte commando's te kennen), maar AI die de interacties controleert zal ervoor zorgen dat de interfaces vanzelf evolueren en beter worden.
Een gesproken instructie wanneer de app voor het eerst wordt gestart, zal anders werken zodra de app uit duizenden interacties heeft geleerd wat de beste handelwijze is.
Het is ook interessant om te bedenken dat er een verandering in gebruikersgedrag nodig is om spraak volledig te kunnen gebruiken. Op dit moment typen mensen veel meer tekst en grafische interfaces op hun smartphone dan dat ze in hun telefoon spreken en spraakassistenten gebruiken.
Dit komt omdat spraakherkenningstechnologie niet perfect is. Al tientallen jaren zijn er spraaksnelkoppelingen op telefoons en computers, maar deze snelkoppelingen werden niet veel gebruikt omdat de foutpercentages zo hoog waren dat de pijn van het verantwoorden van de fout groter was dan het voordeel van het gemak nadat de nieuwigheid eraf was.
Stel je voor dat spraakherkenning perfect was en er geen foutenpercentages waren.
In dit geval zou het voor mensen veel sneller zijn om bijvoorbeeld een e-mail te "typen" met behulp van spraak dan door te typen op hun smartphone. Zodra dit kritieke punt is bereikt, zal spraakassistentie alomtegenwoordig zijn voor dit soort taken.
Om bots van de grond te krijgen, moeten zowel de NLP- als de spraakherkenningstechnologie op een hoog niveau werken. Terwijl spraakherkenning al heel goed werkt, werkt NLP, zoals we hebben besproken, alleen goed voor beperkte domeinen.
Het interessante hier is dat spraakherkenning veel beter werkt in smalle domeinen om voor de hand liggende redenen, er zijn veel minder mogelijke woorden die de gebruiker zou kunnen zeggen.
Dit betekent dat we al op het punt staan om chatbots te maken die bijna perfect is in een smal domein. Luister maar eens naar de Google Duplex Demo's.
Dit zal leiden tot een extreem snelle adoptie van voice zodra de ontdekking en gerelateerde problemen zijn opgelost.
Stem eerst
Het idee is dat spraak de eerste oproep is wanneer iemand hulp nodig heeft.
In een Voice First wereld zullen apparaten onzichtbaarder worden omdat mensen er alleen nog maar naar hoeven te kijken voor taken die ze niet met hun stem kunnen doen.
Mensen zullen niet slechts één apparaat in hun woonkamer hebben, maar een goedkoop stemapparaat in elke kamer. Deze apparaten zullen met elkaar verbonden zijn, met IoT-apparaten en met smartphones en computers. Sommige van deze apparaten kunnen beelden projecteren op de muren.
Mensen kunnen vragen stellen of opdrachten geven terwijl ze onder de douche staan of hun tanden poetsen. Ze hoeven niet meer te onthouden wat ze beneden tegen de stembot moeten zeggen.
Er zullen veel betere manieren zijn om functionaliteit te ontdekken en mensen te "trainen" in hoe ze de bots efficiënt kunnen gebruiken.
Hoewel er op dit moment veel problemen zijn met spraakassistenten, hebben de meeste van deze problemen te maken met de manier waarop ze worden gebruikt en niet zozeer met de onderliggende technologie. Wij geloven dat in een korte periode de killer apps voor spraak zullen verschijnen en dit zal een game-changing gebeurtenis zijn voor de manier waarop software wordt gebruikt. Dit vereist ook enige standaardisatie van spraaktechnologieën en -protocollen, maar dit zijn obstakels die de vooruitgang niet lang in de weg zullen staan.
We kijken uit naar een wereld van ultiem gemak waarin stemapparaten klaar staan om te helpen op bijna elke plaats en op elk moment.
Inhoudsopgave
Blijf op de hoogte van het laatste nieuws over AI-agenten
Deel dit op: