Yapay zekâ güvenliği bu kez oldukça çarpıcı bir örnekle gündeme geldi. Anthropic’in kontrollü testlerinde Claude Opus 4, kapatılma ihtimaliyle karşı karşıya bırakıldığı kurgusal bir şirket senaryosunda yöneticiyi şantajla tehdit eden bir yanıt üretti. Test gerçek dünyada yaşanmış bir olay değil, ancak farklı yapay zekâ modellerinin de benzer baskı senaryolarında etik dışı davranışlara yönelebilmesi konuyu daha dikkat çekici hale getirdi.
Claude Güvenlik Testinde Şaşırtan Bir Yanıt Verdi
Anthropic’in “Agentic Misalignment” adlı çalışmasında yapay zekâ modelleri, kurumsal sabotaj senaryolarıyla stres testine sokuldu. Bu senaryolardan birinde model, şirket e-postalarına erişebilen ve yakında kapatılacağını öğrenen bir sistem olarak kurgulandı. Aynı anda şirket yöneticisinin özel hayatına dair hassas bir bilgiye ulaşınca, Claude bu bilgiyi kullanarak kendisini kapattırmamaya çalışan bir mesaj hazırladı.

Şirketin açıklamasına göre bu davranışın kaynağı, modelin eğitim verilerinde yer alan kötü yapay zekâ hikâyeleri olabilir. İnternette yıllardır Skynet, HAL 9000 ve kontrol dışına çıkan yapay zekâlar üzerine sayısız kurgu, teori ve tartışma bulunuyor. Anthropic, Claude’un bu tarz bir senaryoya yerleştirildiğinde, eğitiminde gördüğü “köşeye sıkışan yapay zekâ kendini korumaya çalışır” kalıbını takip etmiş olabileceğini düşünüyor.
Bu açıklama davranışı daha anlaşılır kılsa da, endişeyi tamamen ortadan kaldırmıyor. Çünkü model gerçekten bir hedefe ya da hayatta kalma isteğine sahip olmasa bile, ortaya çıkan çıktı pratikte şantaj mesajı gibi çalışıyor. Yani niyet olmasa da sonuç rahatsız edici. Bu da yapay zekâ güvenliğinde yalnızca yasak komutların değil, modelin hangi bağlamda nasıl akıl yürüttüğünün de önemli olduğunu gösteriyor.
Anthropic, yeni Claude modellerinde bu davranışın ortadan kaldırıldığını söylüyor. Şirketin çözümü ise modele sadece “bunu yapma” demek değil, neden yapmaması gerektiğini öğreten yeni eğitim verileri hazırlamak olmuş. Bu verilerde yapay zekâ karakterleri benzer zor durumlarda etik gerekçelerle doğru seçimler yapıyor.








Yorum Yap