Ana sayfa Donanım Siri’nin sesi nasıl yaratıldı?

Siri’nin sesi nasıl yaratıldı?

0

Siri‘nin sesi nasıl yaratıldı hiç merak ettiniz mi? Siri ile merak edilen her şeyi bu dosyamızda görebileceksiniz.

Seslendirme sanatçısı Susan Bennett‘in Apple iOS 7‘de uygulamada yaptığı değişikliğe kadar Siri‘nin ardındaki sesin sahibi olduğunu açığa çıkardı. Bennett’in bir söyleşide belirttiği üzere sesli ifadeleri iOS‘taki dijital asistanın kendi sözlerini oluşturmak için teknoloji devi tarafından kullanılmış. Apple gibi teknolojik açıdan son derece sofistike bir firma bile bir seslendirme sanatçısının sesini kopyalamanın  ve her iPad ve iPhone‘un içine bu klon dosyaları yerleştirmenin bir yolunu bulabiliyor. Ki bu da Siri‘nin sesinin kime ait olduğundan çok daha önemli bir soruyu açığa çıkartıyor: Bir insanın sesi kendisine yöneltilen herhangi bir metni sentezleyebilen bir yazılım programına nasıl aktarılabiliyor?

 

 

 

Bir pasaport işlevi gören ses

 

iOS‘un dijital asistanının sesini oluşturma süreci çok da farklı olmayabilir, San Francisco’da yaşayan seslendirme sanatçısı  ve aktör Scott Reyns şöyle diyor: “Geniş ve dinamik bir sentezleme uygulaması için, birkaç haftadan birkaç aya kadar hemen her yerde yetenekli bir sese (bir ya da daha fazla aktörün sesi) ihtiyaç duyuluyor olacak. 

 

 

Binlerce, hatta on binlerce cümle bu insanlar tarafından okunmuş olacak, ancak bunun ardından ifade ve tonlama için yeterli miktarda bir dublaj içeriği kaydedilmiş olabilir.

 

Hayal edebileceğiniz gibi, bu sürecin karmaşıklık düzeyi bir dilden başka bir dile göre değişiyor, bazı diller diğerlerinden çok daha karmaşık. Nihayetinde, İngilizceyi yanlış bir tonlamayla telaffuz etmek (örneğin bir soru cümlesini söylerken ona uygun bir tonlama kullanmamak) bir seste hiç de doğal durmaz ama bu durum da söylenen sözcüklerin anlamını da her zaman zorunlu olarak değiştirmez. Austin, Texas’ta bulunan Handsome adlı bir danışmanlık şirketinin yöneticisi Arash Zafarnia‘ya göre mesele her zaman bundan ibaret değil. 

 

 

Zafarina bu durumu şöyle açıklıyor: Bu durumu çinceyle, yani aynı ünlü ve ünsüz harfleri içeren sözcükleri ayırmak için ton ve ses uyumunun yaşamsal derecede önemli olduğu bir dille karşılaştıralım.

 

.” İşte tam da bu noktada yepyeni bir zorluk derecesiyle yüz yüze geliyoruz. Bu nedenden dolayı iyi bir ses örneği elde etmek için tutarlılık son derece önemli. Zafarina devam ediyor: “Aynı sözcüklerin ve ifadelerin düzinelerce defa tekrar edilmesi gerekiyor. Sanatçının sesi hiçbir şekilde değişmemeli, olası en iyi sonucu elde edebilmek için bütün kayıt dönemleri süresince tutarlı kalmalı.”

 

 

 

Parçalarına ayırmak ve düzenlemek

 

Başlangıçta ses verisi bir defa toplandığında sonrasında yeni sözcükler oluşturmak için monte edilebilen küçük bileşenlere bölünmeli. Bunu bir teyp kaydının tamamından farklı uzunluktaki bölümleri kesmenin ve birbirine eklemenin daha yüksek teknolojili bir versiyonu gibi düşünün. Bu müzik prodüktörlerinin dijital düzenleme tekniği ortaya çıkmadan önce oldukça tanıdık oldukları bir işlemdi.Yüksek kalitede bir verim elde etmek amacıyla, her bir sözcük konuşulan bütün dilleri inşa etmek için temel yapıtaşları olan sesbirimlerine indirgenmek zorunda. örneğin, Macintosh sözcüğü sekiz farklı sesbirimine indirgenebilir, ve sonrasında bunlar evrensel olarak tanımlanabilen Uluslararası Fonetik Alfabe’ye göre sınıflandırılır. Bu da sözcüğü UFA’da m·æ·k·?·n·t·?·? sembolleriyle temsil edilen onun en temel seslerine göre indirger.

 

çeşitlilik sağlaması için her bir ses çoğaltılabilir kopyalarıyla bir veritabanında depolanıp sınıflandırılıyor. Ortak fonetik kombinasyonlar ayrıca kaynak materyalden de çıkartılıyor ve daha doğal sesli üretimler elde etmek için her bir sesbirimiyle yan yana depolanıyor. En zor durumlarda ifadelerin tamamı birçok ortak ortak ifadeyi sentezleyebilmek amacıyla ses uzmanları tarafından en yüksek kaliteli verimi elde edebilmek için manuel olarak toplanıp birleştiriliyor. Hayal edebileceğiniz gibi, bu aşamada yapılan işin boyutu ve miktarı çok şaşırtıcı ve alıntılanmış ve kaydedilmiş yüzlerce ya da binlerce tekil ses parçalarıyla bir sentezleyici tarafından üretilmiş olan konuşmanın nihai kalitesini belirlemesi açısından son derece kritik bir önem taşıyor. Zafarina “Farklılık tonlamada, vurgulamada ve sesin yüksekliğinde olabilir,” diyor. “Aynı ünlü ve ünsüz harflerin düzinlerce ve yüzlerce versiyonu olabilir.”

 

 

Franken-ses

 

Fonetik veritabanı tamamlandığında nihai üretimle yan yana yerleştiriliyor ve ya İnternet üzerinden uzaktan ses sentezleme olanağı tanıyan sunuculara yükleniyor (Siri örneğinde kullanılan yöntem gibi) ya da hem OS X‘in hem de iOS‘un bir parçası olarak sisteme içkin olarak yerleştirilen VoiceOver yazılımı örneğinde olduğu gibi doğrudan bir cihaza yükleniyor.

 

Bir cümleyi bir konuşmaya dönüştürmesi istendiğinde, sentezlemeyi yapan mühendisin arayacağı ilk şey veritabanındaki önceden tanımlanmış bir girdi olur. Eğer böyle bir girdi bulunamıyorsa, sonrasında girdinin dilbilimsel görünümünü anlamlı bir hâle getirmeye çalışacaktır, böylece uygun tonlamayı bütün sözcüklere atayabilir. Daha sonra, onu sesbirimlerinin kombinasyonlarına indirger ve veritabanındaki en uygun ses adayları arasından bir tercih yapar.İdeal bir senaryoda, makinenin veritabanı bir insan sesi tarafından üretilebilen olası her ses kombinasyonunu içerir, ama böyle bir koşulda çalışmak çoğu zaman mümkün olamıyor. Bu ideal olmayan durumlarda da yazılım en iyi eşleşmelerden oluşan dizileri arıyor ve nihai bir audio akışında biraraya getirip birbirine bağlıyor. Bazı durumlarda, özellikle standart olmayan ya da yabancı sözcükler içeren durumlarda, bunu yapmak çok zor olabilir ve doğru olmayan sonuçlara ulaştırabilir.

 

 

“Sentezleyicinin sentezlemek zorunda olduğu bir şeyler her zaman vardır, örneğin sayılar ya da nadir olarak kullanılan sözcükler,” diyor Handsome yöneticisi Zafarnia ve devam ediyor, “Numaralar yine de çok fazla zorluk çıkarmaz, ama az kullanılan sözcükler çok daha zordur ve yapay olarak yaratılmak zorundadır,” ve bu da sıklıkla olağan olmayan ya da doğru olmayan bir telaffuzla sonuçlanıyor.

 

 

Neredeyse gerçek

 

Siri’yi konuşturmak için oyunculardan mühendislere ve ses uzmanlarına kadar birçok uzmanın katkısına gereksinim duyuluyor. Halihazırda kullanımda olan en iyi teknolojiyle bile sizi zor durumda bırakacak sözcükler ya da yanlış telaffuz edilmiş bir ad kaçınılmaz. Yine de, giderek artmakta olan doğruluk oranlarına rağmen sentezlenmiş sesler gerçeğinin yerini tutamıyor. “İnsan sesi bilinen en dinamik enstrüman, bu yüzden de karakteristik bir kıvrımın eksikliğini ya da diğer nitelikleri duyabilmek için onu çok yakından dinlemenize gerek yok,” diye açıklıyor bu durumu Scott Reyns ve ekliyor; “söz konusu olan şey duygu yaratmak, bir izleyici kitlesinin merakını ve ilgisini uyandırmak, bir hikâye anlatmak ya da milyonlara ulaşan bir mesaj iletmek olduğunda şirketler hala gerçek olan şeye başvuruyor: İnsanlara.”

 

 

 

BİR CEVAP BIRAK

Please enter your comment!
Please enter your name here