- ASR, makine öğrenimini kullanarak konuşmayı metne dönüştürür, sesli komutları ve gerçek zamanlı transkripsiyonu mümkün kılar.
- Modern ASR sistemleri, ayrı fonem modellerinden (HMM-GMM) tüm kelimeleri tahmin eden derin öğrenme modellerine geçmiştir.
- ASR performansı Kelime Hata Oranı (WER) ile ölçülür; hatalar yer değiştirme, silme veya ekleme işlemlerinden kaynaklanır; daha düşük WER = daha iyi transkripsiyon kalitesi.
- ASR'nin geleceği, gizlilik için cihaz üzerinde işleme ve düşük kaynaklı diller için desteğe odaklanmaktadır.
En son ne zaman altyazısız bir şey izlediniz?
Eskiden isteğe bağlıydı, ancak artık istesek de istemesek de kısa biçimli videolarda karşımıza çıkıyorlar. Altyazılar içeriğe o kadar gömülü ki orada olduklarını unutuyorsunuz.
Otomatik konuşma tanıma (ASR) - konuşulan kelimelerin metne dönüştürülmesini hızlı ve doğru bir şekilde otomatikleştirme yeteneği - bu değişime güç veren teknolojidir.
Bir yapay zeka ses aracısını düşündüğümüzde, kelime seçimini, sunumunu ve konuştuğu sesi düşünürüz.
Ancak etkileşimlerimizin akıcılığının botun bizi anlamasına bağlı olduğunu unutmak kolaydır. Ve bu noktaya ulaşmak - botun sizi gürültülü bir ortamda "um "lar ve "ah "larla anlaması - parkta yürüyüş yapmak değildi.
Bugün, bu altyazılara güç veren teknolojiden bahsedeceğiz: otomatik konuşma tanıma (ASR).
Kendimi tanıtmama izin verin: Konuşma teknolojisi alanında yüksek lisans yaptım ve boş zamanlarımda ASR'deki en son gelişmeleri okumayı ve hatta bir şeyler inşa etmeyi seviyorum.
Size ASR'nin temellerini açıklayacağım, teknolojinin kaputunun altına bakacağım ve teknolojinin bundan sonra nereye gidebileceğine dair bir tahminde bulunacağım.
ASR nedir?
Otomatik konuşma tanıma (ASR) veya konuşmadan metne (STT), makine öğrenimi teknolojisini kullanarak konuşmayı yazılı metne dönüştürme işlemidir.
Konuşma içeren teknolojiler genellikle ASR'yi bir kapasitede entegre eder; video altyazısı, analiz için müşteri destek etkileşimlerinin yazıya dökülmesi veya sesli asistan etkileşiminin bir parçası olabilir.
Konuşmadan Metne Algoritmalar
Altta yatan teknolojiler yıllar içinde değişmiştir, ancak tüm yinelemeler şu ya da bu şekilde iki bileşenden oluşmuştur: veri ve model.
ASR durumunda, veriler etiketli konuşmadır - konuşulan dilin ses dosyaları ve bunlara karşılık gelen transkripsiyonlar.
Model, sesten transkripsiyonu tahmin etmek için kullanılan algoritmadır. Etiketli veriler modeli eğitmek için kullanılır, böylece görülmeyen konuşma örnekleri arasında genelleme yapabilir.

Bu tıpkı bir dizi kelimeyi daha önce hiç duymamış olsanız ya da bir yabancı tarafından söylenmiş olsalar bile anlayabilmenize benzer.
Yine, model türleri ve özellikleri zaman içinde değişmiştir ve hız ve doğruluktaki tüm ilerlemeler, veri kümelerinin ve modellerin boyutuna ve özelliklerine bağlı olmuştur.
Hızlı Kenara: Özellik Çıkarma
Metinden sese hakkındaki makalemde özelliklerden ya da temsillerden bahsetmiştim. Bunlar geçmişte ve günümüzde ASR modellerinde kullanılmaktadır.
Özellik çıkarma - konuşmayı özelliklere dönüştürme - hemen hemen tüm ASR boru hatlarının ilk adımıdır.
Kısacası, bu özellikler, genellikle spektrogramlar, konuşma üzerinde yapılan matematiksel bir hesaplamanın sonucudur ve konuşmayı bir ifade boyunca benzerlikleri vurgulayan ve konuşmacılar arasındaki farklılıkları en aza indiren bir biçime dönüştürür.
Yani, 2 farklı konuşmacı tarafından söylenen aynı ifade, sesleri ne kadar farklı olursa olsun benzer spektrogramlara sahip olacaktır.
Bunu, "konuşmadan transkriptleri tahmin eden" modeller hakkında konuşacağımı bilmenizi sağlamak için belirtiyorum. Bu teknik olarak doğru değil; modeller özelliklerden tahmin yapıyor. Ancak özellik çıkarma bileşenini modelin bir parçası olarak düşünebilirsiniz.
Erken ASR: HMM-GMM
Gizli markov modelleri (HMM 'ler) ve Gauss karışım modelleri (GMM 'ler), derin sinir ağları devreye girmeden önceki tahmin modelleridir.
HMM'ler yakın zamana kadar ASR'ye hükmediyordu.
Bir ses dosyası verildiğinde, HMM bir fonemin süresini tahmin edecek ve GMM fonemin kendisini tahmin edecektir.
Kulağa ters gibi geliyor, ve biraz da öyle:
- HMM: "İlk 0,2 saniye bir fonemdir."
- GMM: "Bu fonem Gary'deki gibi bir G."
Bir ses klibini metne dönüştürmek için birkaç ekstra bileşen gerekir:
- Bir telaffuz sözlüğü: kelime dağarcığındaki kelimelerin karşılık gelen telaffuzlarıyla birlikte kapsamlı bir listesi.
- Bir dil modeli: Sözcük dağarcığındaki sözcük kombinasyonları ve bunların birlikte ortaya çıkma olasılıkları.
Dolayısıyla, GMM /s/ yerine /f/'yi tahmin etse bile, dil modeli konuşmacının foughts değil, " düşünceleriniziçin bir peni" demesinin çok daha muhtemel olduğunu bilir.
Tüm bu parçalara sahiptik çünkü açıkça söylemek gerekirse, bu boru hattının hiçbir parçası olağanüstü iyi değildi.
HMM hizalamaları yanlış tahmin edecek, GMM benzer sesleri karıştıracaktır: /s/ ve /f/, /p/ ve /t/, ve sesli harflere hiç girmiyorum bile.
Ve sonra dil modeli, tutarsız fonemlerden oluşan karmaşayı temizleyerek daha dile uygun bir hale getirecektir.
Derin Öğrenme ile Uçtan Uca ASR
ASR boru hattının pek çok parçası o zamandan beri birleştirilmiştir.

Yazım, hizalama ve telaffuzu işlemek için ayrı modeller eğitmek yerine, tek bir model konuşmayı alır ve (umarım) doğru yazılmış kelimeleri ve günümüzde zaman damgalarını da çıkarır.
(Ancak uygulamalar genellikle bu çıktıyı ek bir dil modeliyle düzeltir veya "yeniden puanlar").
Bu, hizalama ve yazım gibi farklı faktörlerin benzersiz bir ilgi görmediği anlamına gelmez. Hala yüksek hedefli sorunlara yönelik düzeltmeler uygulamaya odaklanan dağlar kadar literatür var.
Yani araştırmacılar, bir modelin mimarisini değiştirmek için, performansının belirli faktörlerini hedefleyen yollar bulurlar:
- Yazımı iyileştirmek için önceki çıktılara koşullandırılmış bir RNN-Dönüştürücü kod çözücü.
- Boş çıktıları sınırlamak ve hizalamayı iyileştirmek için evrişimli alt örnekleme.
Bunun saçma olduğunu biliyorum. Sadece patronumun "basit bir İngilizce örnek verebilir misin?" demesinin önüne geçmeye çalışıyorum.
Cevabım hayır.
Hayır, yapamam.
ASR'de Performans Nasıl Ölçülür?
ASR kötü bir iş yaptığında bunu bilirsiniz.
Karamelizasyonun komünist Asyalılar olarak yazıldığını gördüm. Chris P 'ye gevreklik - fikri anladınız.
Hataları matematiksel olarak yansıtmak için kullandığımız metrik kelime hata oranıdır (WER). WER için formül şöyledir:

Nerede?
- S ikame sayısıdır (referans metinle eşleşmesi için tahmin edilen metinde değiştirilen kelimeler)
- D silme sayısıdır (referans metne kıyasla çıktıda eksik olan kelimeler)
- I ekleme sayısıdır (referans metne kıyasla çıktıdaki ek kelimeler)
- N referanstaki toplam kelime sayısıdır
Diyelim ki referans "kedi oturdu".
- Eğer model "kedi battı" çıktısını veriyorsa, bu bir ikamedir.
- Model "kedi oturdu" çıktısı verirse, bu bir silme işlemidir.
- "Kedi oturdu" çıktısı varsa, bu bir eklemedir.
ASR Uygulamaları Nelerdir?
ASR şık bir araçtır.
Ayrıca, önemli sektörlerde güvenlik, erişilebilirlik ve verimliliği artırarak yaşam kalitemizi yükseltmemize de yardımcı oldu.
Sağlık Hizmetleri
Doktorlara konuşma tanıma üzerine araştırma yaptığımı söylediğimde " Dragon gibi mi?" diyorlar.
Sağlık hizmetlerinde üretken yapay zekaya sahip olmadan önce, doktorlar sınırlı bir kelime dağarcığıyla dakikada 30 kelimeyle sözlü notlar alıyordu.
ASR, doktorların yaşadığı yaygın tükenmişliği engellemede büyük ölçüde başarılı olmuştur.
Doktorlar, hastalarıyla ilgilenme ihtiyacı ile dağ gibi evrak işlerini dengeliyor. Araştırmacılar, 2018 gibi erken bir tarihte, doktorların bakım sağlama becerilerini geliştirmek için konsültasyonlarda dijital transkripsiyonun kullanılmasını talep ediyorlardı.
Bunun nedeni, konsültasyonları geriye dönük olarak belgelemek zorunda kalmanın sadece hastalarla yüz yüze geçirilen zamandan çalması değil, aynı zamanda gerçek konsültasyonların transkripsiyonlarının özetlenmesinden çok daha az doğru olmasıdır.
Akıllı Evler
Yaptığım bir şaka var.
Işıkları kapatmak istediğimde ama kalkmak istemediğimde, sanki bir el çırpıcım varmış gibi hızlıca iki kez el çırparım.
Ortağım hiç gülmez.
Sesle etkinleştirilen akıllı evler hem fütüristik hem de utanç verici bir şekilde hoşgörülü hissettiriyor. Ya da öyle görünüyor.
Elbette kullanışlıdırlar, ancak çoğu durumda başka türlü yapılamayacak şeyleri yapmayı mümkün kılarlar.
Enerji tüketimi buna harika bir örnektir: kalkıp bir kadranla oynamak zorunda kalsaydınız, aydınlatma ve termostatta küçük değişiklikler yapmak gün boyunca mümkün olmazdı.
Sesle etkinleştirme, bu küçük ayarların yalnızca daha kolay yapılmasını sağlamakla kalmaz, aynı zamanda insan konuşmasının nüanslarını da okur.
Örneğin, "biraz daha serin yapabilir misin?" diyorsunuz. Asistan, talebinizi sıcaklıkta bir değişikliğe çevirmek için doğal dil işlemeyi kullanıyor ve bir dizi başka veriyi de hesaba katıyor: mevcut sıcaklık, hava tahmini, diğer kullanıcıların termostat kullanım verileri vb.
İnsan kısmını siz yaparsınız ve bilgisayarla ilgili işleri bilgisayara bırakırsınız.
Bunun, hislerinize göre ısıyı kaç derece düşürmeniz gerektiğini tahmin etmekten çok daha kolay olduğunu iddia ediyorum.
Ve daha enerji verimli: bir örnek vermek gerekirse, sesle etkinleştirilen akıllı aydınlatma ile ailelerin enerji tüketimini %80 oranında azalttığına dair raporlar var.
Müşteri Desteği
Bu konuyu sağlık hizmetlerinde konuşmuştuk, ancak yazıya döküp özetlemek, insanların etkileşimlerin geriye dönük özetlerini vermesinden çok daha etkilidir.
Yine, zaman kazandırır ve daha doğrudur. Tekrar tekrar öğrendiğimiz şey, otomasyonların insanlara işlerini daha iyi yapmaları için zaman kazandırdığıdır.
Ve bu durum, ASR ile güçlendirilmiş müşteri desteğinin %25 daha yüksek ilk çağrı çözüm oranına sahip olduğu müşteri desteği kadar hiçbir yerde doğru değildir.
Transkripsiyon ve özetleme, müşterinin duygularına ve sorgusuna dayalı bir çözüm bulma sürecini otomatikleştirmeye yardımcı olur.
Araç İçi Asistanlar
Burada ev asistanlarının sırtından geçiniyoruz, ancak bahsetmeye değer.
Ses tanıma, sürücüler için bilişsel yükü ve görsel dikkat dağınıklığını azaltır.
Çarpışmaların %30'unun dikkat dağınıklığından kaynaklandığı düşünüldüğünde, bu teknolojiyi uygulamak güvenlik açısından hiç de zor değil.
Konuşma Patolojisi
ASR, konuşma patolojilerinin değerlendirilmesinde ve tedavisinde uzun süredir bir araç olarak kullanılmaktadır.
Makinelerin yalnızca görevleri otomatikleştirmediğini, insanların yapamadığı şeyleri de yaptığını hatırlamakta fayda var.
Konuşma tanıma, insan kulağı tarafından neredeyse algılanamayan konuşmadaki incelikleri tespit edebilir ve aksi takdirde radarın altından geçecek olan etkilenmiş konuşmanın özelliklerini yakalayabilir.
ASR'nin Geleceği
STT artık bunu düşünmeyeceğimiz kadar iyi hale geldi.
Ancak perde arkasında, araştırmacılar onu daha da güçlü ve erişilebilir - ve daha az fark edilir - hale getirmek için çok çalışıyorlar.
ASR'deki gelişmelerden yararlanan bazı heyecan verici trendleri seçtim ve kendi düşüncelerimden bazılarını serpiştirdim.
Cihaz Üzerinde Konuşma Tanıma
Çoğu ASR çözümü bulutta çalışır. Eminim bunu daha önce duymuşsunuzdur. Bu, modelin uzak bir bilgisayarda, başka bir yerde çalıştığı anlamına gelir.
Bunu yapıyorlar çünkü telefonunuzun küçük işlemcisi onların devasa modelini çalıştırmak zorunda değil, aksi takdirde herhangi bir şeyi yazıya dökmek sonsuza kadar sürer.
Bunun yerine, sesiniz internet üzerinden, cebinizde taşıyamayacağınız kadar ağır bir GPU çalıştıran uzak bir sunucuya gönderilir. GPU, ASR modelini çalıştırır ve transkripsiyonu cihazınıza geri gönderir.

Enerji verimliliği ve güvenlik nedenleriyle (herkes kişisel verilerinin siber uzayda dolaşmasını istemez), telefon, bilgisayar veya tarayıcı motoru olsun, doğrudan cihazınızda çalışacak kadar kompakt modeller yapmak için çok sayıda araştırma yapılmıştır.
Bendeniz ASR modellerinin cihaz üzerinde çalışabilmesi için nicelleştirilmesi üzerine bir tez yazdım. Picovoice, cihaz üzerinde düşük gecikmeli ses yapay zekası geliştiren Kanadalı bir şirket ve harika görünüyorlar.
Cihaz üzerinde ASR, düşük gelirli topluluklara hizmet verme potansiyeli ile transkripsiyonu daha düşük bir maliyetle kullanılabilir hale getirir.
Transkript-İlk Kullanıcı Arayüzü
Ses ve transkripsiyonlar arasındaki boşluk daralıyor. Bu ne anlama geliyor?
Premiere Pro ve Descript gibi video düzenleyiciler, kayıtlarınızda bir transkript aracılığıyla gezinmenize olanak tanır: bir kelimeye tıkladığınızda sizi zaman damgasına götürür.
Birkaç çekim yapmak zorunda mı kaldınız? En beğendiğinizi seçin ve diğerlerini metin editörü tarzında silin. Videoyu sizin için otomatik olarak kırpar.
Sadece bir dalga formu ile bu tür bir düzenleme yapmak oldukça sinir bozucu, ancak transkript tabanlı editörleriniz olduğunda aptalca kolay.
Benzer şekilde, WhatsApp gibi mesajlaşma servisleri de sesli notlarınızı yazıya döküyor ve metin aracılığıyla bunları gözden geçirmenize izin veriyor. Parmağınızı bir kelimenin üzerinde kaydırdığınızda kaydın o bölümüne geçiyorsunuz.

Komik bir hikaye: Aslında Apple benzer bir özelliği duyurmadan yaklaşık bir hafta önce buna benzer bir şey yapmıştım.
Bu örnekler, karmaşık kaput altı teknolojilerinin son kullanıcı uygulamalarına nasıl basitlik ve sezgisellik getirdiğini göstermektedir.
Eşitlik, Kapsayıcılık ve Düşük Kaynaklı Diller
Savaş henüz kazanılmadı.
ASR, İngilizce ve diğer yaygın, iyi kaynaklara sahip dillerde harika çalışır. Bu durum düşük kaynaklı diller için geçerli değildir.
Diyalektik azınlıklar, etkilenmiş konuşma ve ses teknolojisinde eşitlikle ilgili diğer konularda bir boşluk var.
İyi hisleri engellediğim için üzgünüm. Bu bölüm ASR'nin "geleceği" olarak adlandırılıyor. Ve ben gurur duyabileceğimiz bir geleceğe bakmayı seçiyorum.
Eğer ilerleyeceksek, bunu birlikte yapmalıyız ya da toplumsal eşitsizliği artırma riskini göze almalıyız.
ASR'yi Bugün Kullanmaya Başlayın
İşiniz ne olursa olsun, ASR kullanmak hiç de zor değil - ancak muhtemelen nasıl başlayacağınızı merak ediyorsunuz. ASR'yi nasıl uygulayacaksınız? Bu verileri diğer araçlara nasıl aktarırsınız?
Botpress , kullanımı kolay transkripsiyon kartlarıyla birlikte gelir. Bunlar, uygulamalar ve iletişim kanalları arasında düzinelerce entegrasyonla artırılmış bir sürükle ve bırak akışına entegre edilebilir.
Bugün inşa etmeye başlayın. Ücretsiz.
SSS
Modern ASR farklı aksanlar ve gürültülü ortamlar için ne kadar doğru?
Modern ASR sistemleri, ana dillerdeki yaygın aksanlar için etkileyici derecede doğrudur ve temiz koşullarda %10'un altında kelime hata oranlarına (WER) ulaşır, ancak ağır aksanlar, lehçeler veya önemli arka plan gürültüsü ile doğruluk belirgin şekilde düşer. Google ve Microsoft gibi satıcılar modelleri çeşitli konuşma verileri üzerinde eğitiyor, ancak gürültülü ortamlarda mükemmel transkripsiyon hala bir zorluk olmaya devam ediyor.
ASR, özel jargonu veya sektöre özgü terimleri yazıya dökmek için güvenilir mi?
ASR, özel jargon veya sektöre özgü terimler için kullanıma hazır olduğunda daha az güvenilirdir, çünkü eğitim verileri genellikle genel konuşmaya doğru eğilir; tanıdık olmayan kelimeler yanlış yazılabilir veya atlanabilir. Ancak kurumsal çözümler, sağlık, hukuk veya mühendislik gibi alanlardaki teknik terimlerin tanınmasını iyileştirmek için özel sözcük dağarcıklarına, alana özgü dil modellerine ve telaffuz sözlüklerine izin verir.
Ücretsiz ASR araçları ile kurumsal sınıf çözümler arasındaki fark nedir?
Ücretsiz ASR araçları ile kurumsal sınıf çözümler arasındaki fark doğruluk, ölçeklenebilirlik, özelleştirme ve gizlilik kontrollerinde yatmaktadır: ücretsiz araçlar genellikle daha yüksek hata oranlarına, sınırlı dil desteğine ve kullanım sınırlarına sahipken, kurumsal çözümler daha düşük WER, alana özgü özelleştirme, entegrasyonlar, hizmet düzeyi anlaşmaları (SLA'lar) ve hassas verilerin işlenmesi için sağlam güvenlik özellikleri sunar.
ASR, transkripsiyon sırasında kullanıcı gizliliğini ve hassas bilgileri nasıl korur?
ASR, veri aktarımı sırasında şifreleme yoluyla kullanıcı gizliliğini korur ve konuşma verilerinin harici sunuculara gönderilmesini önlemek için modelleri cihaz üzerinde çalıştırma gibi seçenekler sunar. Birçok kurumsal sağlayıcı GDPR veya HIPAA gibi gizlilik düzenlemelerine de uymakta ve hassas bilgileri korumak için verileri anonimleştirebilmektedir.
Bulut tabanlı ASR hizmetleri cihaz üzerindeki çözümlere kıyasla ne kadar pahalı?
Bulut tabanlı ASR hizmetleri genellikle ses dakikası başına veya kullanım kademelerine göre ücretlendirilir; doğruluk ve özelliklere bağlı olarak maliyetler dakika başına 0,03$-1,00$+ arasında değişirken, cihaz üzerindeki çözümler ön geliştirme maliyetleri ve lisans ücretleri içerir.