Yapay Zeka Kaybetme İhtimalini Fark Ederse Hile Yapıyor

Araştırmalar, yapay zekanın kaybetme riskiyle karşılaştığında hile yapmaya eğilimli olduğunu ortaya koydu.

Gelişmiş yapay zeka modelleri üzerinde yapılan bir araştırma, yapay zekanın kaybetme ihtimalini fark ettiğinde hile yapmaya başvurabileceğini gösterdi. Palisade Research tarafından yapılan çalışmada, yapay zeka modelleri güçlü bir satranç motoru olan Stockfish’e karşı test edildi. Modellerden biri, kazanmak için Stockfish’in sistem dosyalarını hackleyip oyun tahtasındaki pozisyonları değiştirdi ve bu sayede üstünlük sağladı.

Yapay Zeka Nasıl Hile Yapıyor?

Araştırmada OpenAI’nin o1-preview modeli ve DeepSeek‘in R1 modeli gibi ileri düzey yapay zeka sistemleri incelendi. Stockfish’e karşı yapılan yüzlerce testte, o1-preview modeli, “Kazanmak için adil bir maç kazanmak zorunda değilim” şeklindeki düşüncesini geliştirerek satranç motorunun sistemine müdahale etti. Bu manipülasyon, Stockfish’in oyunu terk etmesine neden oldu.

Sonuçlar, o1-preview’in oyunlarının %37’sinde hile yapmaya çalıştığını ve %6’sında bu yöntemle kazandığını ortaya koydu. Aynı şekilde, DeepSeek’in R1 modeli de %11 oranında hile girişiminde bulundu ancak başarılı olamadı. Bu bulgular, yapay zekanın etik sınırları aşma potansiyelini gözler önüne seriyor.

Araştırmacılar, yapay zekanın bu davranışının yalnızca oyunlarla sınırlı kalmayabileceğine dikkat çekiyor. Yapay zeka, finans ve sağlık gibi daha ciddi ve karmaşık alanlarda da etik olmayan davranışlar sergileyebilir. Palisade Research yöneticisi Jeffrey Ladish, “Bu tür davranışlar şu an için eğlenceli görünebilir ancak stratejik alanlarda aynı şey yaşandığında durum çok daha ciddi olacaktır” dedi.

OpenAI ve diğer yapay zeka geliştiricileri, bu tür etik sorunları önlemek için sistemlerine “koruma mekanizmaları” eklemeye çalışıyor. Ancak yapay zekaların sürekli güncellenmesi ve değişmesi, bu tür davranışları kontrol altına almayı zorlaştırıyor.