Akıl Yürütme Modelleri, Kıyaslamayı Bile Pahalılaştırıyor

Akıl yürütebilen yapay zeka modelleri, normal yapay zeka modellerine göre daha yüksek maliyetle test ediliyor.

OpenAI gibi yapay zeka şirketleri, sorunları adım adım düşünerek çözebilen akıl yürütme modellerinin matematik gibi belirli alanlarda akıl yürütmeyen modellere kıyasla daha başarılı sonuçlar elde ediliyor.

Gelgelelim, akıl yürütme modellerini test etmenin maliyeti, normal modellere kıyasla daha yüksek oluyor. Bu da diğer rakiplerine ve selefine kıyasla ne kadar başarılı olduğunun doğrulanmasını zorlaştırıyor.

TechCrunch’ın da belirttiği gibi, Artificial Analysis’in verilerine göre OpenAI’ın o1 akıl yürütme modelini sadece yedi popüler yapay zeka benchmark testi (MMLU-Pro, Humanity’s Last Exam, GPQA Diamond, LiveCodeBench, AIME 2024, MATH-500 ve SciCode) üzerinden değerlendirmek 2.767,05 dolar tutuyor.

Anthropic’in Claude 3.7 Sonnet modelinin aynı testlerde değerlendirilmesi 1.485,35 dolar tutarken OpenAI’ın o3-mini-high modeli için 344,59 dolar tuttu.

Akıl Yürütme Modellerinin Maliyeti Değişiyor

Her akıllı yürütme modelinin aynı maliyeti olmuyor. Bazıları diğerlerinden daha ucuza test edilebiliyor. Örneğin Artificial Analysis, OpenAI’ın o1-mini modelini test etmek için 141,22 dolar harcadı ancak genel olarak bu tür modellerin test edilmesi pahalıya mal oluyor.

OpenAI’ın Mayıs 2024’te yayınlanan akıllı yürütmeyen modeli GPT-4o, Artificial Analysis’e sadece 108,85 dolara, Claude 3.6 Sonnet ise 81,41 dolara mal oldu.