Gemini 2.5 Pro, Kıyaslamalarda Rakiplerini Solladı

Google, yeni yapay zeka modeli olan Gemini 2.5 Pro’yu kısa bir süre önce genel kullanıma açtı. Girdi büyüklüğü ile dikkatleri üzerine çeken yapay zeka modeli, matematik ve akıl yürütme kıyaslamalarında epey yüksek puan topladı ve şimdiye kadarki en iyi modellerden biri olmaya aday hâle geldi.

Teknoloji devinin kullanıma sunduğu son yapay zeka modeli, çeşitli konularda OpenAI ve Claude gibi yapay zeka şirketlerinin en akıllı modellerinin önüne geçerken bazı konularda ise küçük farkla da olsa geride kaldı.

Gemini 2.5 Pro, Birçok Konuda Zirvede Yer Alıyor

Gemini 2.5 Pro özellikle uzun metinleri anlama konusunda önceki modellere ve rakip modellere kıyasla oldukça önemli bir gelişme yaşandığını ortaya koyuyor. Fiction.liveBench testinde modele bir novelette (kısa hikâyeden daha uzun, kısa roman olarak nitelendirilebilecek metin) üzerine derinlemesine analiz yapması istendi.

Google’ın en yeni modeli, OpenAI ve Anthropic modellerinden daha iyi performans sergiledi. Rakipleri kısa metinlerde başarılı olsa da Gemini 2.5 Pro’yu onlardan ayıran tarafı, uzun girdilerde iyi olmasıydı.

MathArena testinde Gemini 2.5 Pro yüzde 24,4 puan aldı. Rakip modellerin yüzde 5’in altında kaldığı göz önüne alınacak olursa bu inanılmaz bir başarı. Teste göre Google’ın modeli, açık ara en başarılı sonucu veriyor.

Gemini 2.5 Pro, akıl yürütme becerisine odaklanan Humanity’s Last Exam testinde yüzde 18,8 puan aldı.

Kodlama Konusundaki Başarı Oranı Değişiklik Gösterdi

Modelin kodlama özelinde başarı oranı, farklı testlerde farklılık gösterdi. LiveCodeBench testinde yüzde 70,4 alarak OpenAI’ın o3-mini (%74,1) modelinin hemen arkasında yer aldı.

SWE-bench testinde yüzde 63.8 ile Anthropic’in Claude 3.7 Sonnet (70.3%) modelinin gerisinde kaldı.

Sonuçlar değişkenlik gösterse de Google’ın Gemini 2.5 Pro’su kodlama konusunda da genel olarak iyi bir performans gösteriyor.

İlginizi çekebilir; Intel Core Ultra 200S Plus İşlemciler Resmen Tanıtıldı

Görsel Testlerde Rakiplerine Fark Attı

Model, görsel okuma testlerinde rakiplerine kıyasla oldukça büyük bir başarı ortaya koydu. MMMU testinde OpenAI, Anthropic ve xAI modellerinin önüne yaklaşık 6 puan farkla geçti.

Google oldukça uzun bir zamandan beri görsellere odaklanıyor. Görsel tarama ve anlam çıkarma konusunda rakiplerine fark atması, bu nedenle pek de şaşırtıcı olmadı.