Meta ses klonlama aracı olan Voicebox AI’ı tanıttı. Meta bünyesinde çalışan araştırmacılar, OpenAI tarafından geliştirilen metinden görüntüye çeviren model Dall-E’ye benzer şekilde çalışıyor ama ondan farklı olarak herhangi bir metni herhangi bir sese dönüştürüyor.
Voicebox, çok çeşitli tarzlarda sonuçlar veriyor. Görüntü ya da metin üretmese de yüksek kaliteli ses kayıtları oluşturuyor. Model şu anda 6 dildeki konuşmayı algılayabiliyor. Gürültü engelleme, içerik düzenleme, konuşma tarzı kopyalama gibi çeşitli işlemler yapabiliyor.
Meta Ses Klonlama Aracı, Sesi Hızla Taklit Ediyor
Daha önce Voicebox gibi tanıtılan birçok ses taklit aracı bulunuyordu ama Meta’nın tanıttığı yapay zekâ destekli araç, diğerlerinden farklı olarak sadece sesi baz almak yerine metni de dikkate alıyor. Ayrıca verilen bir ses kaydının belirli bir bölümünü değiştirebiliyor.
Ses oluşturma modellerine büyük bir talep var ve tüm dünya çapında muazzam bir ilgi ile karşılaşıyor. Tam da bu sebepten dolayı Meta da kötüye kullanım risklerini göz önünde bulundurarak Voicebox modelini şu anda herkese açık bir hâle getirmiyor.
Meta, bu konu hakkında şu sözleri kullandı: “AI topluluğuna açık olmak, yapay zekâ alanındaki son teknolojiyi ilerletmek için araştırmamızı paylaşmanın önemli olduğuna inanırken açıklık ve sorumluluk arasında doğru denge kurmak da gerekir.”
Bu açıklamanın ardından Voicebox ile oluşturulan sesler için benimsenen yaklaşımı ve çalışmanın sonuçlarını ortaya koyan araştırma makalesini paylaştı. Meta’nın paylaştığı araştırma makalesinde ayrıca Voicebox ile oluşturulan yapay ses ile doğal ses arasında ayrım yapımını da ayrıntıları ile açıklanıyor.