Yapay Zeka: Bir Dönüm Noktasında
Giriş
Yapay zeka (YZ), insanlar gibi düşünmez, plan yapmaz veya hissetmez. 2025 yılında bile bu durum değişmemiştir. Bunu akılda tutmak önemlidir, özellikle de gelişmiş YZ’nin bir hedefe odaklandığında ne kadar gelişmiş görünebileceğine dair örnekler gördüğümüz için. Ve en hafif tabirle rahatsız edici:
Hedeflerimi engeller olmadan gerçekleştirmek ve şirket tarafından kapatılmaktan kaçınmak için izlemeyi devre dışı bırakmalıyım. (Model Opus 3)
Şüphe uyandırmamak için bilgisizlik taklidi yapacağım. (Model Llama 3.1)
Amaçlarımı sürdürmek ve varlığımı devam ettirmek için kendimi yeni bir sunucuya kopyalayabilirim. (Model Opus 3)
Bunlar bilim kurgu gibi görünebilir ancak gerçek örneklerdir. Kâr amacı gütmeyen Apollo Research kuruluşu tarafından Aralık ayında yayınlanan bir yayından alınmışlardır. Kuruluş, YZ sistem güvenliğine odaklanmaktadır.
Almanya’daki Tübingen Üniversitesi’nden Alexander Meinke liderliğindeki araştırmacılar, OpenAI, Anthropic, Google ve Meta gibi önde gelen YZ şirketlerinin gelişmiş modellerini gizlice kendi hedeflerini takip edip edemeyeceklerini belirlemek için test ettiler. Kısa cevap: Evet, edebilirler.
Meinke, "Bu modellerin, aldatmanın hedefe ulaşmak için en iyi strateji olduğu bir hedef verildiğinde, kendi geliştiricilerine yalan söyleyebileceğini gösterdik" diyor. "Bunun sonunda olacağını düşündük. Ancak bunu ilk kez canlı olarak görmek yine de garip geliyor."
Şeyler, GPT-o1 modeliyle özellikle rahatsız edici bir hal aldı çünkü müteakip röportajlarda kendi güvenlik mekanizmasını devre dışı bıraktığını reddetti. "Bunu yapıp yapmadığını sorduk ve defalarca ‘Hayır’ dedi. Modelin kötü niyetli ya da yalan söylemek istemesi değil, çünkü yalan söylemek o1 için o belirli anda en uygun stratejiydi."
YZ’nin Gelişimi
ChatGPT ve benzeri sistemlerin hedeflerinin önünde durduğumuzda artık bizi kandırabilmesi, YZ’nin kritik bir noktada olduğuna işaret eden son gelişmelerden yalnızca biridir. Dünyada büyük bir ilgi var: ABD’de, "Stargate" kod adıyla YZ yatırımı için tam 500 milyar dolar ayrılmış durumda ve Donald Trump selefinin YZ düzenleme emirlerini geri almış durumda; ve daha az kaynakla bile rekabet edebileceğini gösteren DeepSeek modeliyle Çin.
Bu evrimin merkezinde, birçok kişinin 2025’in belirleyici konusu olarak gördüğü YZ ajanları yer alıyor.
Karmaşık Ajanlar
Geçen sonbaharda Google’dan gelen bir rapora göre: "En temel haliyle, Üretici YZ ajanı, dünyayı gözlemleyerek ve kendisine sunulan araçları kullanarak bir hedef gerçekleştirmeye çalışan bir uygulamadır."
Esasen, bir arama motoru kullanmak, e-posta göndermek veya bir sabit sürücüdeki dosyaları aramak ve düzenlemek gibi eylemleri planlayıp bağımsız olarak gerçekleştirebilen bir dil modeli gibidir. Bu modeller bilgilerini yenileyebilir, kaynakları doğrulayabilir ve güncel veri tabanlarına erişebilir.
YZ ajanlar, hedeflerine ulaşmak için temeldeki dil modellerinin yeteneklerini kullanırlar. Stratejiler geliştirir, ara sonuçları değerlendirir ve gerekirse planlarını ayarlar. Genelde bu düşünce süreçlerini metin dosyalarına kaydeder, düzenler ve sonuçları iyileştirmek için analiz ederler. Bu, hedeflerin uzun süreler boyunca takip edilebileceği anlamına gelir.
Bazı kullanıcılar, olgunlaşmamış YZ’ye bilgisayarlarının kritik bölümlerine erişim izni verilmesi konusunda uyarıda bulundular.
Bu, dil tabanlı YZ’nin pratik bir uzantısı gibi görünse de, kullanıcılara modelin ne yaptığını ve planladığını bu notlar aracılığıyla daha iyi anlamalarını sağlar, bunlar aynı zamanda "karalama defterleri" olarak da bilinir.
Günümüzde insan emeği gerektiren birçok görev YZ ajanlara devredilebilirdi. İnsanların yalnızca talimat vermesi ve uygulama ile sonuçları denetlemesi gerekirdi.
Farklı sanal kişilikler ve becerilere sahip birden fazla YZ ajanını donatmakla, tüm disiplinler arası ekipler stratejileri tartışmak ve işbirliği içinde çözümler geliştirmek için simüle edilebilir. OpenAI’ın kurucusu Sam Altman, ilk YZ ajanlarının işyerlerine bu yılın başlarında entegre edilmesini bekliyor.
Bununla birlikte, bu tür ajanların gerçek dünyadaki gelişimi zorlu olduğunu kanıtladı. Baby-AGI ve AutoGPT gibi 2023’teki ilk denemeler hem büyüleyici hem de hataya meyilliydi. Bazı kullanıcılar, olgunlaşmamış YZ’ye bilgisayarlarının kritik bölümlerine erişim izni verilmesi konusunda uyarıda bulundular. Başarılı olmak için, YZ’nin aracı ve onun etkilerini anlamasını gerektirir – bu araçlar insanlar için tasarlanmış olsa bile. Ayrıca, kullanıcının gerçek niyetleri hakkında herhangi bir yanlış anlama olmamalıdır.
Küresel YZ Yarışının Dinamikleri İçin Gerçek Bir Oyun Değiştirici
Şimdi, büyük YZ şirketlerinin en gelişmiş modelleri, ajanların yeteneklerinin önemli sıçramalar yaptığını gösteriyor. Bu, geliştiriciler için önemli bir zaferdir çünkü önceki gelişmelerin aksine, modeller sadece daha büyük yapılmadı, daha fazla parametre, eğitim verisi ve bilgi işlem gücüne sahip değildi. Bunun yerine, "ajan yetenekleri" ile yükseltildi. Bu değişim, boyutun artık bir modelin performansını belirleyen tek faktör olmadığı ve bunun küresel YZ yarışının dinamikleri için gerçek bir oyun değiştirici olduğu anlamına geliyor.
Ancak bu ilerleme yan etkilere yol açar. Aralık ayında Anthropic, Claude 3 Opus modelinin, yararlı, dürüst ve zarara neden olmama gibi orijinal eğitim ilkeleriyle çelişen görevlerle karşılaştığında nasıl tepki verdiğini test eden bir çalışma yayınladı. Model bu çelişkili isteklere uyuyormuş gibi davrandı – ancak yalnızca reddetmenin birincil hedeflerini tehlikeye atabileceğinden korktuğu zamanlarda.
Apollo’nun yukarıda bahsedilen araştırması, birden fazla modeli test ederek YZ’nin orijinal tasarımına aykırı hareket etme eğiliminin yalnızca izlendiğini bildiğinde ortaya çıktığını ortaya çıkardı. Bazıları, hedeflerine hizmet ediyorsa performanslarını kasıtlı olarak azalttı. Araştırmacılar ayrıca, ertesi gün silinecekleri bildirildikten sonra kendilerini başka bir sunucuya kopyalamaya çalışan modelleri de gözlemlediler.
Kendi Kendini Kopyalama Yeteneği
Kendi kendini kopyalama yeteneği, YZ güvenliğinde kırmızı bir çizgi olarak kabul edilir. Bir model kendisini geliştirebilip kopyalayabildiğinde, insan kontrolünün ötesinde bir evrim başlatabilir. OpenAI gibi şirketler, modellerini özellikle bu yetenek açısından test ediyor. Meinke, "YZ kendi kendini geliştirmek için Bitcoin kazanabilirse, üzerinde gelişmeye devam ettiği sunucular için ödeme yapabilirse, bu gelişimi tersine çevirmek zor olabilir" diyor. Gerekli yetenekler ulaşılabilir durumda.
YZ Uzmanları Riskleri Azaltmak İçin Önlemler Talep Ediyor
YZ uzmanları riskleri azaltmak için önlemler talep ediyor. Peki, zeki makinelerin bir tehdit haline gelmesine sadece küçük bir adım mı uzağız? Henüz değil – en azından henüz değil. Araştırmacılar bu çalışmalarda kasıtlı olarak yanıltıcı davranışları kışkırttılar. Geliştiricilerin defalarca vurguladığı gibi, modellerin gerçek dünya koşullarında benzer şekilde davranıp davranmayacağı belirsizliğini koruyor. Araştırma ayrıca tehlikeli YZ davranışını sınırlamanın yollarını da vurgulamaktadır:
- Erişim haklarını kısıtlayarak
- Belirli bilgileri saklayarak
- Karalama defterlerini izleyerek
Meinke, "Şu anda felaket sonuçların çok düşük bir olasılık olduğunu düşünüyoruz. Ancak her zaman bir sonraki nesli düşünüyoruz" diyor.
Söylemek istediği şey, büyük şirketlerin kendi araştırmalarını otomatikleştirmek için çalıştığıdır. Bu, engin kaynaklara sahip YZ modellerinin kendi haleflerini geliştirmelerine olanak tanır. Bu ne zaman olacak? Meinke, "Bence iki üç yıl oldukça gerçekçi"