Facebook, İngilizce’ye güvenmeksizin herhangi bir dilden çeviri yapabilen makine öğrenimine dayalı yazılımı açıkladı. Facebook, herhangi bir 100 dil çifti arasında, önce onları bir ara adım olarak İngilizceye çevirmeden çeviri yapabilen açık kaynaklı bir AI modeline sahiptir.
M2M-100 adı verilen sistem şu anda sadece bir araştırma projesidir. Ancak sonunda Facebook kullanıcıları gönderileri çevirmek için kullanılabilir. Bunların yaklaşık üçte ikisinde İngilizce dışında bir dil kullanır.
Facebook araştırma asistanı Angela Fan bir blog gönderisinde “Yıllardır, AI araştırmacıları farklı görevlerdeki tüm dilleri anlayabilen tek bir evrensel model oluşturmak için çalışıyorlar. Tüm dilleri, lehçeleri ve yöntemleri destekleyen tek bir model, daha fazla insana daha iyi hizmet vermemize, çevirileri güncel tutmamıza ve milyarlarca insan için eşit şekilde yeni deneyimler yaratmamıza yardımcı olacak. Bu çalışma bizi bu hedefe yaklaştırıyor.” dedi.
FACEBOOK HALKA AÇIK VERİLERİ KULLANIYOR
Model, web’den çıkarılmış 100 dilde 7,5 milyar cümle çiftinden oluşan bir veri kümesi üzerinde eğitildi. Facebook, tüm bu kaynakların açık kaynak olduğunu ve halka açık verileri kullandığını söylüyor.
Madenciliğin ölçeğini yönetmek için araştırmacılar, en sık talep edilen ve Sinhala-Cava dili gibi daha nadir olanlardan kaçınan dil çevirilerine odaklandılar. Daha sonra dilleri dilbilimsel, coğrafi ve kültürel benzerliklere göre 14 farklı gruba ayırdılar. Bu yaklaşım, bu özellikleri paylaşan dillere sahip ülkelerdeki insanların aralarındaki çevirilerden yararlanma olasılığının daha yüksek olacağı için seçildi.
DİL ÇEVİRİLERİNE ÖRNEKLER
Örneğin, bir grup Hindistan’da Hintçe, Bengalce ve Marathi gibi yaygın dilleri içeriyordu. Her gruptaki tüm olası dil çiftleri daha sonra çıkarıldı. Farklı grupların dilleri az sayıda köprü diliyle birbirine bağlanmıştır. Hint dili grubu örneğinde, Hintçe, Bengalce ve Tamil, Hint-Aryan dilleri için köprü dilleri olarak hizmet etti.
Ekip daha sonra bu köprü dillerinin tüm kombinasyonları için eğitim verilerini çıkardı ve bu da onlara 2.200 çeviri yönüne karşılık gelen 7,5 milyar paralel cümle veri setini bıraktı.
Kaliteli çeviri verilerinden yoksun diller için, araştırmacılar, kazılan verileri tamamlayabilecek sentetik çeviriler oluşturmak için ‘geri çeviri’ adı verilen bir yöntem kullandılar. Facebook’a göre, bu teknik kombinasyonu, İngilizce verilerine güvenmeden 100 dil çifti arasında çeviri yapabilen ilk çok dilli makine çevirisi (MMT) modeliyle sonuçlandı.
“İNGİLİZCE VERİLERİ EN YAYGIN OLANI”
Fan, “Diyelim ki Çince’den Fransızcaya çeviri yaparken, çoğu İngilizce merkezli çok dilli model Çince’den İngilizceye ve İngilizceden Fransızcaya eğitim alıyor, çünkü İngilizce eğitim verileri en yaygın olanıdır. Modelimiz, anlamı daha iyi korumak için doğrudan Çince’den Fransızcaya kadar olan verileri eğitiyor.” dedi.
Model henüz herhangi bir ürüne dahil edilmedi. Ancak testler, Facebook‘ta insanların 160’tan fazla dilde içerik gönderdiği çok çeşitli çevirileri destekleyebileceğini gösteriyor. Şirket, makine çevirilerini değerlendirmek için BLEU metriğine göre İngilizce merkezli sistemlerden 10 puan daha iyi performans gösterdiğini söylüyor.
Yorum Yap