OpenAI’nin yeni yapay zekâ modeli o3, görsel algı konusunda büyük bir adım attı. Artık kullanıcılar bir fotoğraf yükleyip, ChatGPT’ye bu görüntünün nerede çekildiğini sorabiliyor. Model, görseldeki bağlamsal ipuçlarını analiz ederek tahminde bulunuyor ve bu tahminin gerekçelerini adım adım açıklıyor. Bu özellik, sosyal medyada hızla yayılırken, “ters konum araması” olarak adlandırılan bu kullanım biçimi büyük ilgi görüyor.
ChatGPT Fotoğraflardaki Detayları Taranarak Konumu Tahmin Ediyor
O3 modeli, önceki GPT-4o gibi görselleri analiz edebiliyor ancak çok daha isabetli sonuçlar sunabiliyor. Kullanıcılar bir kitap etiketi, bina cephesi ya da etkinlik sahnesi içeren görseller yüklediğinde model, bu detaylardan yola çıkarak doğru konumu bulabiliyor. Örneğin bir kullanıcı, Surinam’daki bir evin fotoğrafını yüklediğinde ChatGPT doğru ülkeyi tahmin edebildi. Başka bir testte, New York Otomobil Fuarı’nda çekilen Subaru Trailseeker EV’ye ait bir görüntüyü analiz ederek aracın fuarda tanıtıldığını ve etkinliğin tam konumunu da başarıyla belirledi.
Model yalnızca görsel analiz yapmakla kalmıyor, gerektiğinde fotoğrafı döndürüp okunamayan yazıları düzenleyerek içeriği anlamlandırabiliyor. Ancak OpenAI, modelin hâlâ bazı algı hataları yapabileceğini ve yanlış sonuçlar verebileceğini belirtiyor. Bu nedenle görseldeki özel kişilere ya da hassas bilgilere dair taleplerin reddedildiğini ve sistemin kötüye kullanımına karşı önlemler alındığını vurguluyor.
ChatGPT’nin görselden konum belirleme yeteneği, eğitimden acil durum yönetimine kadar birçok alanda potansiyel taşıyor. Bu özellik, yapay zekânın gerçek dünyadaki uygulama alanlarının genişlemeye devam ettiğini bir kez daha ortaya koyuyor.
Yorum Yap