- Metinden sese (TTS), doğal prozodi ve ses kalitesi için sinir ağlarını kullanarak metni gerçeğe yakın konuşmaya dönüştürür.
- TTS boru hatları metni işler, dilbilimi analiz eder, spektrogramlar oluşturur ve ses kodlayıcılarla ses sentezler.
- TTS, sohbet robotlarına, navigasyon sistemlerine, eğlenceye, sağlık araçlarına ve kapsayıcı eğitime güç verir.
- Yüksek kaliteli TTS, tüm sektörlerde netliği, marka sesini, erişilebilirliği ve kullanıcı güvenini artırır.
Hollandalı ChatGPT Alman aksanıyla konuşur (bazen). Eğer kasıtlıysa, kötüdür. Eğer değilse, o zaman büyüleyici.
Her halükarda, yapay zekalı sesli asistanların Microsoft'un Sam'inden bu yana uzun bir yol kat ettiğini söylemek mümkün. Aslında, birkaç yıl önce konuşma teknolojisi üzerine çalıştığımdan bu yana oldukça uzun bir yol kat ettiler.
Ve ben de size geldiğimiz noktayı anlatmak için buradayım.
En azından 1968'den beri, 2001: A Space Odyssey filminde robot HAL' in ortaya çıkışından beri sentezlenmiş konuşma hakkında mitolojiler üretiyoruz.

Prestijli ve fütüristik olmaktan çok uzak, o zamandan beri standart hale geldi: Tüketicilerin %89'u cihaz seçimlerini ses desteğine sahip olup olmamasına bağlıyor.
Başka bir deyişle, "Bana sadece yardım etmeyin; benimle konuşun".
Bu makalede metinden sese - metnin konuşulan sese dönüştürülmesi - konusunu ele alacağım. Kaputun altında neler olup bittiğinden ve bu teknolojinin sektörler arasında farklı şekillerde kullanıldığından bahsedeceğim.
Metinden Sese Nedir?
TTS, metni sentezlenmiş konuşma sesine dönüştürme işlemidir. İlk versiyonlar, insan ses yolunun mekanik olarak yaklaştırılmasına ve ses kayıtlarının bir araya getirilmesine dayanıyordu. Günümüzde, TTS sistemleri dinamik, insan benzeri ifadeler sunmak için derin sinir ağı algoritmaları kullanmaktadır.
Kullanım durumuna bağlı olarak, konuşma modelleri için gerçek zamanlı üretim, kontrol edilebilir ifade ve bir sesi taklit etme yeteneği gibi farklı modeller mevcuttur.
Metinden Sese nasıl çalışır?
TTS'nin 3 temel adımı vardır: ilk olarak, giriş metni sembolleri, ifadeleri ve kısaltmaları hecelemek için işlenir. İşlenen metin daha sonra onu akustik bir temsile (spektrogram) dönüştüren sinir ağlarından geçirilir. Son olarak, temsil konuşmaya dönüştürülür.
Bahsettiğim gibi, araştırmacılar TTS için bir dizi yaklaşımdan geçtiler. Bizim üzerinde durduğumuz (ve bir süre daha duracağımızı tahmin ettiğim) yaklaşım sinir ağı tabanlı konuşma sentezini kullanıyor.
Bir ifadeyi etkileyen dilsel olguların katmanlarını -telaffuz, hız, tonlama- modellemek karmaşık bir iştir.

Sinir ağlarının yarı sihirli kara kutu yetenekleriyle bile, bir TTS sistemi konuşmaya yaklaşmak için bir grup bileşene dayanır.
Kesin bir boru hattı belirlemek zor; yeni teknolojiler sağda solda ortaya çıkıyor ve öncekileri geçersiz kılmakla tehdit ediyor.
Çoğu TTS sisteminde şu ya da bu şekilde var olan birkaç genel bileşen vardır.
1. Metin İşleme
Metin işleme, TTS sisteminin hangi kelimelerin söyleneceğini belirlediği adımdır. Kısaltmalar, tarihler ve para birimi sembolleri hecelenir ve noktalama işaretleri ortadan kaldırılır.
Bu her zaman önemsiz değildir. "Dr." doktor mu yoksa sürücü mü demek? Peki ya CAD? Kanada doları mı yoksa bilgisayar destekli tasarım mı?
Doğal dil işleme(NLP), çevredeki bağlama dayalı olarak doğru yorumu tahmin etmeye yardımcı olmak için metin işlemede kullanılabilir. Belirsiz terimin (örneğin "Dr.") bir bütün olarak cümleye nasıl uyduğunu değerlendirir, bu nedenle "Dr. Perron buna karşı tavsiyede bulundu" ifadesinde NLP, dr. ifadesini doktor olarak çözecektir.
2. Dilbilimsel Analiz
Metin işlendikten sonra, model "Ne söylemeliyim?" sorusundan "Nasıl söylemeliyim?" sorusuna geçer.
Dilbilimsel analiz, TTS'nin bir cümlenin perde, ton ve süre açısından nasıl iletilmesi gerektiğini yorumlamaktan sorumlu kısmıdır. Başka bir deyişle:
- Her ses, hece veya kelime ne kadar uzun olmalı?
- Tonlama yükselmeli mi? Düşmeli mi?
- Hangi sözcük vurgulanıyor?
- Hacimdeki değişim amaçlanan duyguyu nasıl yansıtabilir?
Prozodi Neden Önemlidir?
Hikaye zamanı: TTS modelleri geliştiren bir ekibe danışmanlık yaptığım kısa bir işim oldu. Prozodinin bir cümlenin anlaşılabilirliğini ne kadar etkilediği ya da bozduğu ortaya çıktı. Size ne demek istediğimi göstereyim.
Aşağıda "Vay canına, bunu bekliyor muydun?" cümlesinin 3 teslimatı yer almaktadır.
İlki harika. "Whoa "dan sonraki duraklama, "expecting "in ikinci hecesindeki yukarı doğru çekim (ex-PEC-ting). 10/10.
İkincisi, son kelimede ("... bunu bekliyorum") yukarı doğru eğilerek soru niteliğini zar zor yakalıyor. Bunun dışında, geri kalan heceler aşağı yukarı aynı uzunlukta, ses seviyesi veya perdede herhangi bir değişiklik yok. Müşterilerime "çizim tahtasına vurmalarını" söylerdim.
Sonuncusu ilginç bir durum: "Whoah" harika - yüksek sesli, uzun ve alçalan bir kontura sahip. Sorunun yükselen çekimi "miydin" boyunca gerçekleşiyor ve temelde baştan sona sabit bir perde tutuyor.
Bu, birçok orta yol TTS sisteminin durduğu yerdir: makul bir teslimatla yeterince basit. Mesele şu ki, bu sizin söyleyeceğiniz gibi değil - en azından çoğu bağlamda değil.
Eski sistemlerde, bu nitelikler ayrı bileşenler tarafından tahmin ediliyordu: bir model her sesin ne kadar sürmesi gerektiğini hesaplıyor, diğeri ses perdesinin nasıl yükselip alçalması gerektiğini belirliyordu.
Bugünlerde her şey daha bulanık.
Sinir ağları, devasa eğitim veri kümelerinin ince inceliklerini içselleştirerek bu kalıpları kendi başlarına öğrenme eğilimindedir.
3. Akustik Modelleme
Akustik modelleme, normalleştirilmiş metnin (ve varsa tahmin edilen dilbilimsel özelliklerin) bir ara temsil çıktısı veren bir sinir ağından geçirildiği yerdir.
Spektrogramlar ve Konuşma Temsilleri
Ara temsil genellikle bir spektrogramdır - bir ses sinyalinin zaman üzerindeki frekans temsili - ancak bu değişmektedir.
İşte bir TTS modeli tarafından "Whoa, bunu bekliyor muydun?" girdi metnimizden oluşturulan temsil:

Bu 2 boyutlu görüntü aslında her biri 80 frekans içeren 146 dikey dilimden oluşmaktadır. Daha güçlü frekanslar daha parlak, daha zayıf olanlar ise karanlıktır.
İşte 90 derece sağa döndürülmüş 10. zaman adımı (veya sütun):

Tek tek frekansları ve enerjilerini görebilirsiniz.
İlk bakışta spektrogram pek bir şeye benzemiyor, ancak burada bazı açık dilbilimsel fenomenler mevcut:
- Bu dalgalar açıkça tanımlanmış çizgiler /w/, /r/ ve /l/ gibi sesli harfler veya sesli harf benzeri seslerdir.
- Koyu noktalar sessizliği temsil eder. Bunlar noktalama işaretleri için duraklamalar olabilir.
- Yüksekteki enerji kümeleri gürültüyü temsil eder, tıpkı /s/, /sh/ ve /f/ seslerinde duyduğunuz gürültü gibi
Hatta dikkatli bakarsanız spektrogramda kelimeleri sıralayabilirsiniz.

Spektrogramlar, çeşitli biçimleriyle, konuşma teknolojisinde yaygın olarak kullanılan gösterimlerdir çünkü ham konuşma ve metin arasında çok iyi bir aracıdırlar.
Farklı konuşmacılar tarafından söylenen aynı cümlenin iki kaydı çok farklı dalga biçimlerine, ancak çok benzer spektrogramlara sahip olacaktır.
4. Ses Sentezleme (Vocoding)
Sentez aşaması, spektrogramın sese dönüştürüldüğü yerdir.
Bu dönüşümü yapan teknolojiye vocoder denir. Bunlar, spektrogram temsillerine dayalı olarak konuşma sinyallerini yeniden yapılandırmak için eğitilmiş sinir ağı modelleridir.
Temsil ve konuşma sinyali modellemesini ayrı modüllere ayırmanın nedeni kontrolle ilgilidir: ilki kelimelerin telaffuzunu ve sunumunu doğru bir şekilde modellemekle, diğeri ise sunumun tarzı ve gerçekçiliğiyle ilgilidir.
Bir spektrogram ile /s/ ile /sh/ veya /ee/ ( heat'de olduğu gibi) ile /ih/ ( hit'de olduğu gibi) arasındaki farkı ayırt edebiliriz, ancak stil ve kişilik vokoder tarafından üretilen ince detaylardan gelir.
Burada farklı akustik modeller ve ses kodlayıcılar arasındaki kombinasyonların bir karşılaştırması yer alıyor. Araştırmacıların akustik modelleri ve vokoderleri nasıl karıştırıp eşleştirdiklerini ve en iyi genel sonuç için nasıl optimize ettiklerini göstermektedir.
Ancak yine diğer tüm bileşenlerde olduğu gibi, spektrogramların hepsi bir arada modeller lehine aşamalı olarak kaldırıldığını görüyoruz.
TTS'nin Kullanım Alanları Nelerdir?
Dinamik konuşma dili üretme becerisi, tüm sektörlerde önemli bir araçtır.
Bu sadece sofistike robot hizmetçilerle ilgili değil - verimlilik, erişilebilirlik ve güvenlik elde etmemize yardımcı oluyor.
Sohbet Robotları ve Sesli Asistanlar
Bunu söyleyeceğimi biliyordun 😉
Komutlarınızı anlamak, alışveriş listelerinizi güncellemek ve randevularınızı ayarlamak arasında, yapay zeka aracılarındaki sentezlenmiş konuşmanın karmaşıklığını ve önemini hafife almak kolaydır.
İyi bir temsilci (yani kullanılabilir bir temsilci), uygun bir sese sahip olmalıdır: komutları isteyecek kadar samimi ve kullanıcının bunları yerine getirebileceğine inanmasını sağlayacak kadar insani.
Bir yapay zek a asistanının kulağa "doğru" gelip gelmediğine karar vermek için geçen bir saniyede kullanıcıları kazanmak için pek çok araştırma ve mühendislik yapılıyor.
İşin iş tarafında: sohbet robotunuz markanızı temsil eder. TTS teknolojisindeki gelişmeler, daha iyi sesli markalaşma ve daha etkili müşteri hizmetleri için seçenekler anlamına geliyor.
Eğlence ve Medya
Anlatım ve çok dilli medya, sentetik konuşma teknolojisindeki gelişmelerle daha kullanılabilir hale gelmiştir.
Konuşma teknolojisi, yeteneğin yerini almaktan ziyade dramatik performansları artırmaya yardımcı olur.
Gırtlak kanseri nedeniyle sesini kaybeden Val Kilmer, Top Gun'da orijinal sesiyle içten bir performans sergiledi: Maverick (2022) filminde yapay zeka sayesinde orijinal sesiyle içten bir performans sergiledi.
TTS ayrıca oyun geliştiricilerinin oynanamayan karakterlere (NPC'ler) farklı ve etkileyici ifadeler vermesine olanak tanır.
Sağlık Hizmetleri
TTS'deki iyileştirmeler, genel olarak erişilebilirlikte iyileştirmeler anlamına gelir.
Yaşlı bakım teknolojileri, refakat ve yardım konularını aynı anda ele alır. Bu teknoloji, TTS'nin sunduğu kişiselleştirilebilirliğe dayanır: şefkatli tonlar, değişken hızlar ve dikkatli tonlama, etkili ve onurlu yardım sunmanın bir parçasıdır.
TTS ayrıca gençler arasında erişilebilirliği artırmak için de kullanılıyor.
Acapela Group, diğer şeylerin yanı sıra, konuşma üretim bozukluğu olan çocuklar için teknolojiler geliştirmektedir. Sentetik konuşma, vokal özelliklerini korurken ifade yeteneklerini ve bağımsızlıklarını artırır.
Eğitim ve Kapsayıcı Öğrenme
Dil öğrenme uygulamalarında sentetik konuşmaya rastladık. Ancak bu buzdağının sadece görünen kısmı.
Örneğin, bağımsız öğrenmeye girişin önündeki engellerden biri okuma becerisidir. Çocuklar, görme engelliler ve bazı öğrenme güçlükleri olan kişiler için bu her zaman mümkün olmayabilir. Bu durum, kalabalık sınıflarda aşırı çalışan öğretmenlerin üzerine büyük bir yük bindirmektedir.
Kaliforniya'daki bir okul bölgesi, özel ihtiyaçları olan öğrenciler için daha kapsayıcı bir öğrenme ortamı oluşturmak amacıyla TTS'yi uygulamaya koymuştur.
Tıpkı yaşlı bakımında olduğu gibi, eğitim teknolojisinde de şefkatli seslerin bozulmamış bir netlik ve vurguyla konuşması esastır. Değiştirilebilir parametreler, öğretmenlerin bu teknolojileri derslerine entegre etmelerini mümkün kılarak öğrencilerin kendilerini daha fazla dahil hissetmelerine yardımcı olur.
İhtiyaçlarınız için En İyi TTS'yi Alın
Sektörünüz ne olursa olsun, ses yapay zekasının önemli olduğunu söylemek yanlış olmaz. Ve uyguladığınız TTS tam anlamıyla işletmeniz adına konuşur, bu nedenle güvenilir ve özelleştirilebilir olması gerekir.
Botpress , tüm yaygın iletişim kanallarında bir dizi entegrasyon ve dağıtım ile güçlü, son derece özelleştirilebilir botlar oluşturmanıza olanak tanır. Sesli temsilciniz sadece etkilemekle kalmayacak, aynı zamanda çalışacak.
Bugün inşa etmeye başlayın. Ücretsiz.
SSS
TTS sistemlerinin desteklemekte zorlandığı diller veya lehçeler var mı?
Evet, TTS sistemlerinin desteklemekte zorlandığı diller ve lehçeler var, özellikle de büyük kayıtlı konuşma ve metin veri kümelerinden yoksun olan düşük kaynaklı diller. Bölgesel lehçeler, tonal diller ve yerli diller gibi varyasyonlar, standart modellerin üzerinde eğitilmediği nüanslı telaffuz kuralları ve prozodi gerektirdiğinden genellikle zorluk teşkil eder. Yaygın olarak konuşulan dillerde bile lehçe farklılıkları yanlış telaffuzlara veya kulağa doğal gelmeyen konuşmalara yol açabilir.
TTS sesleri perde, hız ve duygu açısından ne kadar özelleştirilebilir?
Günümüzde TTS sesleri, prozodi ve stil üzerinde ince taneli kontrol sağlayan modern sinir ağı mimarileri sayesinde perde, hız ve duygu açısından son derece özelleştirilebilir. Birçok ticari TTS sistemi, kullanıcıların konuşma hızını, tonlama kalıplarını, ses seviyesini ve ifade tonunu sakin anlatım, heyecanlı duyurular veya empatik diyalog gibi farklı bağlamlara uyacak şekilde ayarlamasına olanak tanır. Bununla birlikte, kontrol derecesi satıcıya göre değişir - bazıları hız ve perde için yalnızca temel kaydırıcılar sunarken, diğerleri duygusal ifade ve vokal tını için ayrıntılı parametreler ortaya çıkarır.
TTS sistemleri tarafından işlenen ses verileri ne kadar güvenlidir?
TTS sistemleri tarafından işlenen ses verilerinin güvenliği büyük ölçüde sağlayıcıya ve dağıtım yöntemine bağlıdır. Bulut tabanlı TTS hizmetleri genellikle verileri aktarım sırasında ve beklemedeyken şifreler, ancak hassas bilgilerin harici sunuculara gönderilmesi, uygun anlaşmalar ve GDPR veya HIPAA gibi uyumluluk önlemleri mevcut değilse yine de gizlilik riskleri oluşturabilir. Şirket içi veya uç dağıtımlar daha yüksek güvenlik sağlar çünkü ses ve metin kuruluşun altyapısını asla terk etmez ve üçüncü taraflara maruz kalmayı azaltır.
İşletmeler için yüksek kaliteli TTS çözümleri uygulamak ne kadar pahalı?
İşletmeler için yüksek kaliteli TTS çözümleri uygulamak, orta düzeyde kullanıma sahip bulut tabanlı API'ler için aylık birkaç yüz dollars , özel ses geliştirme veya şirket içi kurumsal dağıtımlar için on veya yüz binlerce dollars kadar değişebilir. Maliyetler genellikle lisanslama ücretlerini, karakter başına ödeme veya dakika başına ödeme kullanım maliyetlerini, entegrasyon ve geliştirme çabalarını ve özel bir ses oluşturuyorsanız muhtemelen ses yeteneği ücretlerini içerir. Küçük işletmeler genellikle abonelik tabanlı hizmetlerle başlarken, daha büyük işletmeler marka tutarlılığı ve gizlilik için ısmarlama çözümlere yatırım yapabilirler.
Yüksek kaliteli bir TTS sesi oluşturmak için ne kadar eğitim verisi gerekir?
Yüksek kaliteli bir TTS sesi oluşturmak genellikle ideal olarak aynı konuşmacıdan ve tutarlı kayıt koşulları altında birkaç saat ila düzinelerce saat temiz, profesyonel olarak kaydedilmiş konuşma gerektirir. Tacotron veya FastSpeech gibi modern nöral TTS sistemleri 2-5 saat kadar az veriyle iyi kaliteye ulaşabilir, ancak son derece doğal, etkileyici ve sağlam sesler elde etmek genellikle 10-20 saat veya daha fazla zaman alır. Ses klonlama veya çok etkileyici sesler için daha da büyük veri kümelerine ve çeşitli stilleri, duyguları ve bağlamları kapsayan çeşitli kayıtlara ihtiyaç vardır.