Hoewel velen in de sector misschien beweren dat de "next big thing" in technologie blockchain, AI die menselijke werknemers vervangt of augmented reality is, is er één cruciale technologie die wordt onderschat: de voice user interface.
Onderzoek wijst uit dat in 2020 50% van de zoekopdrachten via spraak wordt gedaan. Wat dit onderzoek echter onderschat, is dat kleine verbeteringen in de voice UI de potentie hebben om het huidige mens-computer interactieparadigma volledig te veranderen. Dit gaat veel verder dan het gebruik van de zoekfunctie en de spraakinterface zal grafische gebruikersinterfaces en apps vervangen of er diep in integreren.
De voice UI stelt mensen in staat om te communiceren met apparaten in natuurlijke gesproken taal via slimme luidsprekers en andere apparaten, momenteel te vinden in apparaten zoals Alexa of Google Home. Spraak is fundamenteel voor de manier waarop we dingen gedaan krijgen met andere mensen, en het zal fundamenteel zijn voor de manier waarop we dingen gedaan krijgen met computers in de toekomst.
Dit is momenteel echter een marginale mening.
Hoewel de meeste tech-experts het ermee eens zijn dat voice zijn huidige nicherol in het technologie-ecosysteem zal blijven ontwikkelen, of op zijn minst incrementeel zal groeien naarmate de technologie verbetert, is mijn voorspelling dat voice de belangrijkste gebeurtenis op zich wordt. Het zal onze interacties met software en apparaten gaan domineren en zelfs net zo belangrijk worden als de grafische gebruikersinterface.
Zoals gezegd is dit geen mainstream mening. Veel industrie-experts erkennen dat voice nog steeds een nieuwigheid is en nog geen perfecte product-markt fit heeft bereikt. Sommige prominente VC's zijn bijvoorbeeld van mening dat spraaktechnologie altijd erg niche zal blijven tot kunstmatige intelligentie veralgemeend is.
Door de vele huidige beperkingen van spraakassistenten is het moeilijk voor mensen om zich spraak voor te stellen als de volgende technologiegolf. Naar mijn mening is spraak vandaag de dag vergelijkbaar met het inbelweb in de vroege jaren '90. Toen was de online ervaring zo slecht dat het moeilijk voor te stellen was wat er mogelijk zou zijn als de bandbreedte eenmaal was bereikt. Toen was de online ervaring zo slecht dat het moeilijk was om je voor te stellen wat er mogelijk zou zijn zodra de bandbreedte verbeterde. Vooraanstaande denkers deden allerlei voorspellingen voor het internet die achteraf gezien absurd conservatief lijken - sommige experts voorspelden zelfs dat het niet meer impact zou hebben op de economie dan faxmachines.
De verwachtingen van mensen voor spraak zijn vandaag de dag net zo conservatief, deels omdat de spraakervaring nog steeds ruw is. De aanname is dat bots slecht zullen presteren in gesprekken totdat er algemene kunstmatige intelligentie is bereikt - en de technologie zal nooit geweldig zijn totdat de chatbots in staat is om een bijna menselijke conversatie met de gebruiker te voeren. Deze aanname over de noodzaak van algemene kunstmatige intelligentie is echter onjuist: Er zijn zeker manieren om chatbots op een bijna-menselijk niveau te laten presteren met de huidige technologie.
Voor algemene slimme luidsprekerassistenten is het onderwerpbereik zo breed, dat ze bijna volledig zelflerend moeten zijn. Helaas is de huidige technologie niet goed genoeg om automatisch zelflerende bots te maken die multi-turn gesprekken met mensen aankunnen. Als die technologie bestond, zouden we vervolgvragen kunnen stellen op Google. Maar slimme bots zichzelf laten bouwen is net zoiets als proberen een smartphone-app zichzelf te laten bouwen zonder enige menselijke tussenkomst - dat is op dit moment gewoon niet mogelijk.
Er is nog een manier om met bots conversaties op bijna-menselijk niveau te realiseren: hun bereik drastisch beperken. Net als bij apps kunnen ontwikkelaars geavanceerde bots maken voor specifieke taken en ze handmatig programmeren om zinvolle gesprekken te voeren. Het is met dit soort bots dat de doorbraak voor spraak zal komen: slimme luidsprekers, telefoons en andere apparaten zullen onderdak bieden aan dit soort bots, waardoor grote kansen ontstaan voor de pioniers die het goed aanpakken.
De problemen van de huidige spraakbots aanpakken
Om intuïtief het verschil te begrijpen tussen de ervaring van de huidige voice bots en hoe deze technologie er in de toekomst uit zal zien, moeten we eerst begrijpen waarom een voice device momenteel het equivalent is van surfen op het web via een inbelmodem.
Ten eerste zijn de basisinteracties met een voice bot nog steeds erg slecht. Je moet het apparaat specifiek aanspreken met een trefwoord, waarna je moet wachten om te zien of de bot succesvol geactiveerd is of niet. Als het geactiveerd is, moet je na de piep op een langzame maar consistente snelheid spreken en je zinnen zo formuleren dat ze alle nodige parameters bevatten - bijna alsof je in een SQL statement spreekt. Als u op een bepaald moment pauzeert om na te denken, zal uw interactie mislukken en moet u terug naar het begin.
Laten we eens kijken naar een voorbeeld uit de praktijk:
Je zegt: "Hé, Google."
Er is een pauze terwijl je wacht op de bevestiging dat het apparaat geactiveerd is.
Als het geactiveerd is, ga je verder met je verzoek:
"Speel 'Dark Horse' van Katy Perry af op YouTube, op de tv in de woonkamer."
Er is nog een vertraging terwijl het apparaat verwerkt wat je hebt gezegd.
Als je aanvraag succesvol is, begint er iets te gebeuren op je TV en wordt de video afgespeeld.
Als het niet lukt, moet je terug naar het begin en het opnieuw proberen, misschien met een andere zinsbouw, andere woorden of gewoon proberen duidelijker te spreken.
Deze ervaring zit vol vertragingen, mogelijke fouten en kan veel herstarts vergen om taken uit te voeren. Bovendien is de voice bot nog niet slim en reageert hij niet op gerelateerde commando's of vragen over wat je aan het doen bent.
Een nieuwe manier van interactie met spraakbots
De eenvoudigste manier om je interacties met slimme bots van de toekomst voor te stellen is door een menselijke operator voor te stellen die het apparaat bedient en het instructies geeft, specifiek met betrekking tot het bedienen van YouTube (en niets anders).
Het eerste verschil zit in de snelheid van de interactie. Je kunt op normale snelheid tegen de "menselijke" operator praten, zonder pauzes of vertragingen in het antwoord, en geen problemen als je pauzeert terwijl je praat. Je kunt ook midden in een zin naar de menselijke operator verwijzen - bijvoorbeeld: "Ik wil tv kijken - weet je wat, Alexa, zet alsjeblieft iets op YouTube." In feite hoef je misschien helemaal niet hun naam (het 'hot word') te zeggen om ze te laten reageren.
Deze mensachtige bot zou ook flexibel zijn in zijn interactie met jou:
Jij: "Alexa, ik wil YouTube kijken."
Alexa: "Tuurlijk, op welke tv?"
Jij: "Op de keukentelevisie - misschien iets van Katy Perry."
Alexa: "Heb je een bepaald nummer in gedachten?"
Jij: "Nee, wat kun je voorstellen?"
Mens: "'Roar,' 'Dark Horse'? Ik heb meer suggesties op het scherm gezet."
Jij: "Geweldig, bedankt. Speel 'Hot and Cold.
Dit is de toekomst van botinteracties: Naadloos, vloeiend en gemakkelijk om mee te praten over de taak of het onderwerp. Stel je een enorm universum van deze bots voor met een even groot universum van goedkope, gangbare stemapparaten. Het zal zijn alsof er in elke kamer en naast elk apparaat een menselijke operator staat. Er zullen nog steeds veel grafische UI's zijn, maar ze zullen veel gemakkelijker te gebruiken zijn via de bot.
De toekomst van spraak binnenstappen
Vandaag de dag zie je vaak medewerkers in metrostations, luchthavens en supermarkten die hulp bieden aan mensen die gebruik maken van self-service touchscreens - bijvoorbeeld de persoon die je helpt bij het gebruik van de incheckautomaten om je instapkaart te krijgen op het vliegveld. Stel je echter eens voor dat deze persoon een directe interface zou hebben met de incheckapplicatie - wat betekent dat je halverwege het incheckproces tegen de machine kunt zeggen dat je je stoel wilt veranderen ten opzichte van de positie die je oorspronkelijk had gekozen en dat de applicatie het relevante scherm voor je oproept - en dat allemaal zonder de hulp van een menselijke assistent.
Dit is de toekomst: een voice bot zal ingebed zijn in of toegankelijk zijn voor elk apparaat of dienst waarmee je in contact wilt komen en zal onmiddellijk doen wat je beveelt. Je hoeft niet langer je telefoon of laptop tevoorschijn te halen om iets gedaan te krijgen - in plaats daarvan hoef je alleen maar hardop te zeggen wat je nodig hebt en alles valt vanaf dat moment op zijn plek.
De overstap naar voice gaat uiteindelijk over zoiets eenvoudigs als gemak. In onze moderne wereld willen mensen dingen snel doen met zo min mogelijk gedoe, en snelheid is belangrijker dan ooit tevoren. Hoewel een meerderheid van degenen die verbonden zijn met de chatbot-industrie er op dit moment niet op anticiperen, voorzien degenen onder ons die de technologie onderzoeken en ontwikkelen enorme implicaties voor bedrijfsvoering, marketing, verkoop, branding, productdistributie en nog veel meer. Spraak is de toekomst van technologie, en we zijn al halverwege.
Deel dit op:
Bouw gratis je eigen gepersonaliseerde AI-chatbot
Begin met het bouwen van een gepersonaliseerde GPT bot met onze intuïtieve drag & drop interface.
Begin - het is gratis! 🤖Geen creditcard nodig
Blijf op de hoogte van het laatste nieuws over AI chatbots