Sesli Asistan nedir?
Sesli asistan, doğal dilde söylenen komutları anlayabilen ve bunlara yanıt verebilen bir yazılımdır. Akıllı asistanlar olarak da adlandırılabilirler ve bu daha doğru bir tanım olabilir çünkü çoğu durumda sohbet üzerinden metinle arayüz oluşturulabilirler. Elbette bot olarak da bilinirler.
Son yıllarda sesli asistanların benimsenmesi, özellikle Alexa ve Google Home gibi sesle etkinleştirilen ev asistanları şeklinde gerçekleşti.
Bu ürünler kullanıcıların yazılımlara sadece sesleriyle bir şeyler yapmaları için komut vermelerini sağlar. Örneğin, bir kullanıcı sadece akıllı sesli asistana komut vererek Spotify'da müzik çalabilir veya Youtube'da bir video oynatabilir.
Kişisel asistan cihazı, yapay zeka alanında, özellikle de doğal dil işleme adı verilen bir alanda yapılan atılımlar sayesinde mümkün oldu.
Sesli Asistanlar Ses Tanıma için NLP'yi Nasıl Kullanıyor?
Doğal Dil İşleme, bilgisayarların konuşulan bir ifadenin arkasındaki niyeti anlamasını sağlayan bir teknolojidir. Bu, konuşulan kelimeleri metne dönüştüren konuşma tanımadan farklıdır. Konuşma tanıma elbette ses kontrollü dijital asistanlar için de gereklidir. Konuşma tanıma, konuşulan kelimeleri metne dönüştürür ve doğal dil işleme, metnin arkasındaki kullanıcı niyetini belirler.
Doğal Dil İşleme önemli ve kullanışlıdır çünkü insanlar sesli asistanlara aynı anlama gelen farklı ifadeler kullanarak talimat verirler. Örneğin, "Youtube'da X'i çal" veya "Lütfen Youtube'da X'i bul ve çal" veya "Youtube'da lütfen X şarkısını çal" vb. diyebilirler.
NLP tüm bu ifadelerin aynı anlama geldiğini tespit edebilir. Bu, insanlar için, cihazı çalıştırmak için tam bir komut veya sözdizimini hatırlamaları gerekmediği için cihazla yalnızca sesle etkileşime girebilecekleri gerçeğinin yanı sıra yararlıdır. NLP ayrıca geliştiricilerin nasıl kurulacağını öğrenmeleri için şaşırtıcı derecede kolaydır ve bu nedenle herhangi bir bot çerçevesinin önemli bir parçasıdır.
Sesli Asistanların Artıları ve Eksileri
Sesli asistan kullanmayı deneyen herkesin size söyleyeceği gibi, bazı şeyler için iyidirler ancak mükemmel değildirler. Örneğin onlarla insan gibi sohbet edemezsiniz. Denerseniz konuşma hızla bozulacaktır.
Sadece onlarla etkileşime geçerek ne yapıp yapamadıklarını öğrenmek de zor. Voice'un birçok bilgiye hızlı bir şekilde ulaşmak için zayıf bir arayüz olduğu ortaya çıkıyor. Örneğin bir web sayfasını taramak, hızlı bir şekilde bilgi edinmenin çok daha iyi bir yoludur.
Çok iyi oldukları şey, tek seferlik komutlar veya sorulardır. Özellikle kullanıcının tam olarak istediği sonucu bildiği durumlarda, örneğin youtube'da adını bildiği belirli bir videoyu oynatmak istediğinde ve bir sorunun cevabının "şehrimdeki sıcaklık nedir?" gibi basit bir cümle olduğu durumlarda iyi çalışırlar.
Sesli asistanların sadece başka bir yazılım arayüzü olduğunu sık sık unutuyoruz. Onlara asistan diyoruz çünkü onlarla konuşabiliyorsunuz ve bu nedenle onları bir tür insan benzeri kaliteye sahip olarak kavramsallaştırmak kolay. Bu fikir, onları etkinleştirmek için "Hey Google", "Alexa", "Siri" gibi sıcak bir kelimeyle isimleriyle çağırmamız gerektiği gerçeğiyle daha da güçleniyor. Eğer sıcak bir kelimemiz olmasaydı, kendileriyle ne zaman konuşulduğunu ve dolayısıyla ne zaman yanıt vereceklerini bilemezlerdi. Kısayol sözcüğü, sesli asistanı bir yazılım arayüzünden ziyade bir tür düşünen neredeyse insan asistan olarak düşünmemiz için beynimizi yıkıyor. Ve küçük çocukların beynini Google ya da Alexa'nın bir tür Diyet olduğuna inanmaları yönünde yıkıyor ki bu da onların dünyaya hükmeden şirketler olduğunu keşfettiklerinde onlara kalıcı zararlar verebilir.
Gerçekte, sesli asistanlar sadece başka bir yazılım arayüzüdür, yani örneğin bir grafik arayüze eşdeğerdir. Grafiksel bir arayüz sesli bir arayüze benzer bir rol oynar ancak aynı şekilde insanileştirilemez.
Sesli arayüzler elbette grafik arayüzlerden farklı kullanılmaktadır. Sesli arayüzlerin normalde grafik arayüzlere ek olarak kullanıldığı, ancak bunun tam tersi olmadığı ortaya çıktı.
Bunun nedeni kısmen, çoğu uygulama için grafik arayüzlerin zaten oluşturulmuş olması ve bu nedenle bunlara bir ses arayüzü eklenmesinin kullanıcılara yazılımla etkileşim kurmanın başka bir yolunu sunmasıdır. Sesli asistandan bir youtube videosunu oynatmasını istemek gibi. Videoyu grafik arayüzü kullanarak oynatabilirsiniz ancak bunu yapmak daha yavaş olacaktır.
Grafik arayüzün sesli arayüzden daha eksiksiz olduğu da tartışılabilir çünkü grafik arayüzde kolayca yapılabilen bazı görevleri ses kullanarak yapmak çok zor olacaktır. Bu noktayı anlamak için, iş arkadaşınıza telefonda talimatlar vererek sizin için bir hesap tablosu oluşturmasını sağlamaya çalıştığınızı ve grafik arayüzü kullanarak hesap tablosunu kendiniz oluşturduğunuzu düşünün.
Sesli arayüzler genellikle vazgeçilmez olmamakla birlikte, belirli durumlarda yeni bir kolaylık düzeyi sağlarlar. Bu genellikle eller serbest etkileşimin gerekli olduğu nadir durumlar dışında, gerektiğinde onsuz da yaşayabileceğiniz bir kolaylıktır.
Sesli Asistanların Geleceği
Sınırlılıkları göz önüne alındığında, sesli asistanların gelecekte daha önemli hale gelip gelmeyeceği ya da bir kenar ürün olarak kalıp kalmayacağı sorusu ortaya çıkıyor.
Sesli asistanların gelecekte çok daha popüler hale geleceği ve yaygın olarak kullanılacağı açıktır; bunun tek bir nedeni vardır: grafik kullanıcı arayüzleriyle tamamen entegre olacaklardır.
Grafik kullanıcı arayüzlerini ses ile değiştirmek zor olsa da, ses ve grafik arayüzünü birleştirmek çok mümkün. Bu, şu anda Google Asistan (bir web sayfasının bağlam sağlamasına olanak tanır) ve Bixby ile çok sınırlı ölçüde yapılmaktadır.
"Kombinasyon" arayüzleri olarak adlandıracağımız yeni nesil arayüzler, grafik, metin ve sesi kullanıcı için en iyi deneyime entegre edecek. Bu sadece kullanıcıların görevleri daha hızlı ve daha az öğrenme eğrisiyle (çünkü ses, kullanıcıların tam komutları bilmeden yazılımla etkileşime girmesine izin verir) gerçekleştirmesine izin vermekle kalmayacak, aynı zamanda etkileşimleri izleyen yapay zeka, arayüzlerin kendi başlarına gelişmesine ve daha iyi hale gelmesine izin verecektir.
Uygulama ilk başlatıldığında verilen bir sesli talimat, uygulama binlerce etkileşimden en iyi hareket tarzının ne olduğunu öğrendikten sonra farklı şekilde çalışacaktır.
Sesin tam olarak benimsenmesi için kullanıcı davranışlarında bir değişiklik olması gerekeceğini düşünmek de ilginçtir. Şu anda insanlar akıllı telefonlarına konuşmaktan ve sesli asistanları kullanmaktan çok daha fazla metin yazıyor ve grafik arayüzleri kullanıyor.
Bunun nedeni ses tanıma teknolojisinin mükemmel olmamasıdır. Onlarca yıldır telefonlarda ve bilgisayarlarda sesli kısayollar vardı, ancak bu kısayollar yaygın olarak kullanılmadı çünkü hata oranları o kadar yüksekti ki, yeniliğin etkisi geçtikten sonra hatayı hesaba katmanın acısı, kolaylığın faydasından daha ağır basıyordu.
Ses tanımanın mükemmel olduğunu ve hiç hata oranı olmadığını düşünün.
Bu durumda, insanların örneğin bir e-postayı ses kullanarak "yazmaları", akıllı telefonlarında yazmalarından çok daha hızlı olacaktır. Bu kritik noktaya ulaşıldığında, sesli yardım bu tür görevler için her yerde kullanılabilir hale gelecektir.
Botların başarılı olabilmesi için hem NLP hem de ses tanıma teknolojisinin yüksek seviyede çalışması gerekmektedir. Ses tanıma zaten çok iyi çalışırken, NLP, tartıştığımız gibi, sadece dar alanlar için iyi çalışıyor.
Buradaki ilginç nokta, ses tanımanın dar alanlarda bariz nedenlerden dolayı çok daha iyi çalışmasıdır, kullanıcının söyleyebileceği çok daha az olası kelime vardır.
Bu, dar bir alanda neredeyse mükemmel olan sohbet robotları yaratma noktasında olduğumuz anlamına geliyor. Google Duplex Demolarını dinlemeniz yeterli.
Bu durum, keşif ve ilgili sorunlar çözüldüğünde sesin son derece hızlı bir şekilde benimsenmesine yol açacaktır.
Önce Ses
Buradaki fikir, birinin yardıma ihtiyacı olduğunda ilk aranacak kişinin ses olacağıdır.
Voice First dünyasında cihazlar daha görünmez hale gelecek, çünkü insanlar sesle yapamayacakları işler için sadece onlara bakmak zorunda kalacaklar.
İnsanlar oturma odalarında sadece bir cihaza sahip olmayacak, her odada ucuz bir ses cihazına sahip olacaklar. Bu cihazlar birbirlerine, IoT cihazlarına, akıllı telefonlara ve bilgisayarlara bağlanacak. Bu cihazlardan bazıları duvarlara görüntü yansıtabilecek.
İnsanlar duş alırken ya da dişlerini fırçalarken soru sorabilecek ya da komut verebilecekler. Alt kattaki sesli bota söyleyecekleri şeyleri hatırlamak zorunda kalmayacaklar.
İşlevselliği keşfetmenin ve insanları botları nasıl verimli bir şekilde kullanacakları konusunda "eğitmenin" çok daha iyi yolları olacaktır.
Şu anda sesli asistan cihazlarıyla ilgili birçok sorun olsa da, bu sorunların çoğu temel teknolojiden ziyade nasıl kullanıldıklarıyla ilgilidir. Kısa bir süre içinde ses için katil uygulamaların ortaya çıkacağına ve bunun yazılımın kullanım şekli için oyunun kurallarını değiştirecek bir olay olacağına inanıyoruz. Bu aynı zamanda ses teknolojileri ve protokollerinin standartlaştırılmasını da gerektirecek, ancak bunlar ilerlemeyi uzun süre engellemeyecek engeller.
Sesli cihazların neredeyse her yerde ve zamanda yardıma hazır olduğu nihai kolaylık dünyasını dört gözle bekliyoruz.
İçindekiler
Yapay zeka ajanlarıyla ilgili en son gelişmelerden haberdar olun
Bunu paylaşın: