Tahminlerin Geleceği: Yapay Zeka, Süper Tahmincileri Tahtından Edebilir mi?
Geleceği önceden bilmek harika olurdu. S&P 500 endeks fonlarımın şubat ortasında zirveye ulaşıp nisan ayında çakılacağını bilmek isterdim. Göreve başlama sürecinde Trump yönetiminin dış yardımlara saldırmak için ne kadar ileri gideceğini bilmek de faydalı olurdu. Ayrıca, konut kredisi faiz oranlarının nereye gideceğine dair bir fikrim olsaydı, ne zaman ev alacağıma daha iyi karar verebilirdim.
Bu tür tahminleri sistematik olarak yapma sanatına tahminleme denir ve uzun zamandır bazı insanların (süper tahminciler olarak adlandırılan) bu konuda diğerlerinden daha iyi olduğunu biliyoruz. Ancak onlar bile Nostradamus değiller; büyük olaylar bazen onları şaşırtıyor. Süper tahmincilerin çalışmaları zaman ve çaba gerektiriyor ve sayıları da az. Ayrıca, biz ölümlülerin onları bu kadar etkili yapan şeyleri taklit etmesi zor. Dünyanın en iyi süper tahminci ekiplerinden biri olan Samotsvety grubunun bir profilini yazdım ve onların ipuçlarına ve püf noktalarına rağmen, deneyimden süper tahminci olarak ayrılmadım.
Ancak benden daha iyi öğrenen bir şey biliyor musunuz? Yapay zeka modelleri. Son yıllarda, tahminleme topluluğu giderek yapay zeka destekli tahmin botları oluşturmaya ve onlardan öğrenmeye yöneldi. Daha uzmanlaşmış alanlar, çeşitli biçimlerde bunu bir süredir yapıyor; örneğin, çeşitli tahmin araçlarını kullanan bilgisayar programlarının insan müdahalesi olmadan varlık alım satımı yaptığı finansal piyasalardaki algoritmik ticaret, onlarca yıldır var. Ancak yapay zekayı daha genel amaçlı bir tahmin aracı olarak kullanmak daha yeni bir fikir.
Bu alanda konuştuğum herkes, en iyi insan tahmincilerin hala makineleri yendiği konusunda hemfikir. Bunun en iyi kanıtı, önde gelen tahmin web sitesi Metaculus tarafından üç ayda bir düzenlenen ve katılımcıların geleceği en doğru şekilde tahmin etmek için yarıştığı turnuvalardan geliyor. Başlangıçta sadece insanlar için olan Metaculus, yakın zamanda yarışmacıların özel yapım yapay zeka güdümlü botlar girdiği ve geçmiş performansının en iyi insan tahmincilerle karşılaştırılabildiği bot turnuvalarına başladı. Şimdiye kadar orada, 2024’ün üçüncü ve dördüncü çeyrekleri ve 2025’in ilk çeyreği için sonuçlarımız var ve her çeyrekte Metaculus’un insan süper tahmincileri en iyi makineleri yendi. (Denemek isterseniz, her çeyreğin galibi için 30.000 dolarlık bir ödül var.)
Ancak Metaculus CEO’su Deger Turan’ın bana söylediğine göre, aradaki fark her çeyrekte daralıyor. Daha da ilgi çekici olanı, bu yılın ilk çeyreğindeki en iyi modelin inanılmaz derecede basit olmasıydı: Sadece bazı son haber makalelerini çekti ve ardından o zamanlar en gelişmiş OpenAI modeli olan o1’den kendi tahminini yapmasını istedi. Bu yaklaşım insanları yenemedi, ancak çok daha sofistike olan birçok yapay zeka modelini yendi.
o1 artık en son teknoloji OpenAI modeli değil; bu makalenin yazıldığı sırada o3. Ve bazı ölçütlere göre o3, Google DeepMind’ın en iyi modeli olan Gemini 2.5 Pro kadar iyi değil. Bütün bunlar şunu gösteriyor: İnsanlar temelde aynı kalırken, yapay zekalar sürekli gelişiyor ve bu da yaptıkları tahminlerin de iyileşeceği anlamına gelebilir. İnsan hayatının neredeyse her alanı iyi tahmine dayanır. Avukatlar, rakiplerinin bir anlaşmaya razı olup olmayacağını tahmin eder. İnşaat amirleri, bir bina projesinin ne zaman tamamlanacağını tahmin eder. Film yapımcıları, hangi senaryonun hit olacağını tahmin eder. Bekarlar, sohbet ettikleri kişinin kahve mi yoksa bira mı tercih edeceğini tahmin eder.
Şu anda bu tahminlerde çok iyi değiliz, ancak yakında çok daha iyi olabiliriz. Bu tür bir değişimin sonuçlarını yeni yeni anlamaya başlıyoruz.
Teoride, bir "yapay zeka tahmincisi", gelecekteki olayları tahmin etmek için bir veya birden fazla türde makine öğrenimi modellerine dayanan bir programdır.
Tahminleme, makine öğrenimi modellerinin yaptığının özünde yer alır: Devasa miktarda veriyi analiz ederler ve ardından bu verilerin dışında tahminlerde bulunabilen modeller geliştirirler. ChatGPT veya Claude veya Midjourney gibi üretici modeller için bu, bir kullanıcının sorgusuna yanıt olarak istediği sonraki kelimeyi veya pikseli tahmin etmek anlamına gelir. Finansçıların en azından 1982’de hedge fonu Renaissance Technologies’in kuruluşundan beri inşa ettiği algoritmik ticaret modelleri için bu, geçmiş performansa dayanarak hisse senedi, tahvil ve diğer piyasalardaki varlık fiyatlarının gelecekteki yolunu tahmin etmek anlamına gelir.
Dünya olayları hakkında daha genel tahminler için, günümüzdeki tahminciler ağırlıklı olarak xAI, Google DeepMind, OpenAI veya Anthropic gibi firmaların genel amaçlı modellerine güvenme eğilimindedir. Bunlar, birkaç ay boyunca yüz milyonlarca dolar değerinde GPU ile eğitilir ve bu da yapay zekayı tahminleme için kullanan nispeten küçük ekiplerin sıfırdan başlamak yerine tüm bu eğitimden faydalanmasının çok daha umut verici olmasının bir nedenidir. (Açıklama: Vox Media, OpenAI ile ortaklık anlaşmaları imzalayan birkaç yayıncıdan biridir. Haberlerimiz editoryal olarak bağımsız kalmaktadır. Anthropic’in ilk yatırımcılarından biri, BEMC Vakfı Future Perfect’i finanse etmeye yardımcı olan James McClave’dir.)
Tahminleme, kendi içinde bir dünya olup, bol miktarda tahmine özgü jargon ve referans içerir. İşte tahminleme dünyasında duyacağınız bazı yaygın terimlere kısa bir kılavuz.
-
Baz oranı: Belirli bir olgunun meydana geldiği tarihsel oran (örneğin, ülkelerin savaşa girdiği oran veya S&P 500’ün genel olarak düştüğü günlerin yüzdesi), belirli bir duruma özgü ayarlamalar yapılmadan önce. Baz oranınızı belirlemek genellikle tahminde ilk adımdır.
-
Brier skoru: Tahminlerin ne kadar doğru çıktığının yaygın bir ölçüsü. Bir tahmincinin atadığı olasılıklar ve gerçek sonuçlar arasındaki mesafeyi ölçen bir formül kullanılarak hesaplanır.
-
Kalibrasyon: Bir tahmincinin olayların gerçekleşmesine atadığı olasılıkların, gerçekten gerçekleşip gerçekleşmediğiyle ne kadar iyi eşleştiği (örneğin, tahmincinin yüzde 70 olası olarak tahmin ettiği olaylar yüzde 70 oranında gerçekleşir mi?).
-
Metaculus: Tahmincilerin tahminlerde bulunabileceği ve doğruluğu karşılaştırabileceği popüler bir web sitesi. Bir tahmin piyasası gibi yapılandırılmamıştır.
-
Tahmin piyasası: Genellikle çevrimiçi olan bir hisse senedi türü piyasa, burada katılımcılar belirli olayların gerçekleşip gerçekleşmediğine gerçek para birimi, kripto para birimi veya oyun parası bahsi oynayabilir. Kalshi, Polymarket ve Manifold popüler tahmin piyasalarıdır.
-
Kapsam hassasiyeti: Farklı olguların ölçeği hakkında net bir şekilde akıl yürütebilme yeteneği. İyi tahmincilerin önemli bir özelliği.
-
Süper tahminci: Tahminleri ortalama bir insanınkinden güvenilir bir şekilde çok daha doğru ve daha iyi kalibre edilmiş bir insan.
Yapay Zeka Güvenlik Merkezi’nde bulunan bir ekip, Ekim 2024’te sadece büyük bir dil modeline (bu durumda OpenAI’nin 4o modeli) bilgi istemi vererek ve son haber makalelerini kazıyarak "insanüstü" tahmin yeteneği iddia eden bir makale yayınladı. Bu iddia inceleme altında çöktü: Diğer araştırmacılar bulguyu tekrar edemediler ve modelin eğitimde iyi tahmin edebildiği, kısmen sahip olması gerekenden daha yeni verilere sahip olduğu için ortaya çıktı; bu probleme "veri kirlenmesi" deniyor. Diyelim ki 2024’ün sonlarında, o yılki Demokrat adayının kim olacağını tahmin etmek için bir model eğitmeye çalışıyorsunuz; Kamala Harris olacağını biliyorsunuz, ancak modeli eğitmek için yalnızca bunun açık hale gelmesinden önceki verileri vermeye çalışıyorsunuz. Ancak bu veriler, Harris’in nihai adaylığına atıfta bulunarak yalnızca 2024’ün başlarından değilse, tahmininiz çok iyi performans gösterebilir, ancak yalnızca gerçek dünya bağlamında asla sahip olmayacağı verilere erişebildiği için.
Daha umut verici bir yaklaşım, UC Berkeley bilgisayar bilimcileri Danny Halawi, Fred Zhang, Chen Yueh-Han ve Jacob Steinhardt’tan geliyor. Tahmincileri de dil modellerine dayanıyordu, ancak kapsamlı miktarda "iskele" yaptılar: Sadece botun serbestçe çalışmasına izin vermek yerine, dil modelinden nihai sonucu almak için çok spesifik bir sırayla bir dizi çok spesifik şey yapmasını istediler:
Doğrudan dil modellerine sormanın korkunç tahminlere yol açtığını buldular: Ekip makalelerinde, "Çoğu modelin puanları rastgele tahmin etmeye yakın veya daha kötü" diye yazdı. Ancak binlerce başarılı tahminin (ve bunların temelindeki muhakeme) neye benzediğini göstererek modelleri ince ayarlamayı başardıklarında, sonuçlar çok daha iyi oldu.
Elde edilen tahminleme botu, soruların yüzde 71,5’ini doğru yanıtladı. Karşılaştırma için, araştırmacıların karşılaştırma için kullandığı insan tahminleme web sitesi, katılımcılarının ortalama tahminini aldı ve yüzde 77 doğruluk elde etti. Bu insan karşılaştırıcısı, en iyi süper tahminciler kadar iyi değil, ancak kesinlikle rastgele şanstan daha iyi.
Sonuç: Yapay zeka tahmincisi henüz insan seviyesine ulaşmadı ve kesinlikle kalabalığı yenen insan "süper tahminciler" seviyesine de ulaşmadı. Ancak çok uzakta değil.
Bu etkileyici, ancak o zamandan beri ilerleme oldukça yavaş. Yapay zeka tabanlı tahmin araçları oluşturan FutureSearch startup’ının CEO’su Dan Schwarz, "Tartışmasız, akademik bir bakış açısıyla, Steinhardt’ın makalesi aşılmadı, ki bu artık tam bir yıl önceydi" dedi. Tam bir yıl çok gibi gelmeyebilir, ancak insan terimleriyle düşünüyorsunuz. Yapay zeka dünyasında bir yıl bir sonsuzluktur.
Bu gerçek, Schwarz ve tahminleme için yapay zeka üzerinde çalışan diğer girişimcilerin bana söylediği bir şeyin altını çiziyor: Bu işler göründüğünden daha zor.
Bir sınırlama, ironik bir şekilde, dil modellerinin iyi nicel düşünürler veya mantıksal muhakemeciler olmamasıdır. Bazı yaygın tahminleme soruları "X olayı Y tarihine kadar gerçekleşecek mi" şeklinde ortaya çıkar: "Çin 2030’a kadar Tayvan’ı işgal edecek mi" veya "Çin 2040’a kadar Tayvan’ı işgal edecek mi". Mantıksal bir çıkarım, belirli bir soru için, tarih gelecekte ilerledikçe olasılıkların aynı kalması veya artması gerektiğidir: "Çin’in 2040’tan önce işgal etmesi", "Çin’in 2030’dan önce işgal etmesi"nin tüm geleceğini içerdiğinden, 2040’a kadar gerçekleşme olasılığı en azından 2030’a kadar gerçekleşme olasılığından daha düşük olmamalıdır.
Ancak dil modelleri, bunu bilecek kadar mantıksal ve sistematik düşünmüyor. Tahmin platformu Metaculus’un CEO’su Turan, platformun yarışmalarına giren birkaç botun, bu tür bir tutarlılığı onlara empoze etmeye çalıştığını ve tahminleri içsel olarak tutarlı olacak şekilde tasarlandığını belirtiyor. Turan, "Sonuçta çok daha iyi sonuçlar elde ediyorlar" diyor. 2024’ün dördüncü çeyrek yarışmasını kazanan yazılım mühendisi Phil Godzin, modelinin ilk adımının "ilgili soruları gruplandırmak ve iç tutarlılığı korumak için partiler halinde tahmin etmek için bir LLM’ye sormak" olduğunu açıkladı.
Bu sınırlama, OpenAI’nin o3/o4-mini’si ve DeepSeek’in R1’i gibi "muhakeme modelleri"nin şafağı nedeniyle daha az önemli hale gelebilir. Bu modeller, kolayca kontrol edilebilen mantıksal ve matematiksel sorulara ("çilek"te kaç tane ‘r’ var gibi) doğru yanıtlar vermelerini sağlamak için kapsamlı geç aşama eğitiminden geçmeleri nedeniyle önceki dil modellerinden farklıdır. Ayrıca, bu tür soruların doğru bir şekilde yanıtlanmasını sağlamak için sorgulandıklarında genellikle daha fazla işlem gücü kullanacak şekilde tasarlanırlar. Teoride, modellerdeki bu evrim, tahminlerdeki tutarlılığın korunmasını kolaylaştırmalıdır, ancak bu avantajın pratikte ortaya çıkıp çıkmadığını görmek için henüz çok erken.
FutureSearch’ten Schwarz, zayıf web araştırma becerilerini kritik bir darboğaz olarak görüyor. ChatGPT’nin "Derin Araştırma" modu gibi gösterişli özelliklerin kullanıma sunulmasına rağmen, belirli bir durumla ilgili temel gerçeklerin derlenmesi hala yapay zeka modelleri için büyük bir zorluktur.
FutureSearch bu hafta, önde gelen LLM’ler tarafından yapılan web tabanlı araştırmalar için bir kıstas sağlamak amacıyla Deep Research Bench’i ortaya çıkardı. Mayıs 2025 itibariyle, en iyi modellerin bile rutin araştırma görevlerinde zorlandığını buluyor. Örneğin, "Sayı Bulma" görevi, modellerden belirli bir veri noktasını bulmasını istedi (örneğin, tarihte kaç tane FDA tıbbi cihaz geri çağırması olmuştur). En iyi model olan OpenAI o3, bu konuda yüzde 69 puan aldı; birçoğu yarıdan daha az doğru yaptı ve birkaç ay önce ses getiren DeepSeek R1, üçte birden daha az doğru yaptı.
Modeller, daha karmaşık görevlerde daha da kötü performans gösterdi, örneğin tüm veri kümelerini bulmak gibi. o3’ten alınan en iyi genel puan 1 üzerinden 0,51 oldu. FutureSearch, yetenekli, zeki, ancak yanılabilir bir insanın 0,8 alabilmesi gerektiğini tahmin ediyor. Yazarlar, "Düşük bilgi alımında olan öncü ajanların, bol zaman verilen akıllı genel araştırmacılardan önemli ölçüde daha kötü performans gösterdiği sonucuna varabiliriz" sonucuna varıyorlar.
Geçen yılki makalenin yazarlarından biri olan Berkeley’li istatistikçi Steinhardt, durumu biraz daha olumlu bir şekilde çerçeveliyor. Elbette, yapay zekaların sınırlamaları var, ancak ChatGPT sadece iki buçuk yıl önce tanıtıldı ve şimdiden insanların topuklarına basıyorlar. Steinhardt, "Günümüzün en iyi yapay zeka sistemlerine en iyi bilinen tahminleme fikirlerini uygularsanız, grup olarak çalışan en iyi insan tahmincilerden daha iyi performans göstereceğinizi tahmin ediyorum" diyor. "Neden bu konuda iyi? Çünkü insanlar sadece gerçekten, gerçekten kötü tahminciler."
İyi tahminleme, hatalarınız konusunda dürüst olmanızı ve onlardan öğrenmenizi; görüşlerinizi aniden ve toplu olarak değil, küçük artışlarla sürekli değiştirmenizi; ve haberlerde öne çıkan ve etrafınızda tartışılan şeylerle dikkatinizin dağılmaması, ancak aldığınız tüm bilgilere uygun ağırlık vermenizi gerektirir.
İnsanlar, bunların hiçbirinde özellikle iyi değiller. Çoğu konuda inançlarımızı tek bir bilgi parçasına dayandırma eğilimindeyiz, genellikle alakasız olan bilgilere. Daha kolay hatırlanan veya daha kolay erişilebilen bilgilere, daha önemli olsun ya da olmasın, çok daha fazla ağırlık veriyoruz. Kapsam hakkında düşünmekte kesinlikle berbatız; uzmanlar bile, örneğin, milyarlardaki bir sayıya milyonlardakine kıyasla bin kat ağırlık vermekte zorlanıyorlar. Yapay zekaların tüm bunlarda daha iyi olabileceği mantıklı geliyor.
Genel amaçlı tahminleme alanının incili olan Süper Tahminleme, 2015 yılında yayınlandı. Üniversite of Pennsylvania’dan psikolog ve ortak yazarı Philip Tetlock, bunu ondan önce onlarca yıldır devam eden araştırmalara dayandırdı. Yine de, benim gibi insanlardan gelen dostane kapsama alanı bir yana, geleceği daha iyi tahmin etmenizi sağlayan net stratejiler olduğu fikrinin dünyayı ateşe vermediği söylenebilir. New York Times, Hindistan ve Pakistan’daki sınır gerginliklerini bildirdiğinde, süper tahmincilerin olası sonuçlara ilişkin görüşlerine atıfta bulunmuyor. Beyaz Saray, Çin’in daha yüksek tarifelere nasıl yanıt vereceğine dair bir tahmin için süper tahmincilere sormuyor. Yatırım firmaları, trendleri yansıtmak için en iyi süper tahmincileri işe almak için bir teklif savaşına girmiyor.
Bu, önemli bir sonuç sorusu ortaya çıkarıyor: Dünya insan süper tahminlemesine çok fazla talep duymuyorsa, bunun makineler tarafından yapılması durumunda bu durum değişir mi? Yapay zeka süper tahminlemesi neden farklı olmalı?
Bu endişe, çoğu yapay zeka tahminleme çabasının nispeten küçük ölçeğini açıklayabilir. Google DeepMind, OpenAI, Anthropic ve diğer önde gelen laboratuvarlar buna öncelik vermiyor. FutureSearch, ManticAI (Metaculus yarışmalarında en iyi performans gösterenlerden biri) ve Lightning Rod Labs gibi birkaç küçük startup var. Muhtemelen, büyük laboratuvarlar insanüstü tahminlemenin büyük bir ekonomik oyun değiştirici olduğunu düşünselerdi, buna daha fazla yatırım yaparlardı. Kesinlikle bir süper tahminci böyle düşünürdü.
Bununla birlikte, günümüzün en iyi insanlarından daha iyi tahmin yapan insanüstü yapay zeka tahminlemesinin büyük bir olay olacağını düşünmek için iyi nedenler var. İnsan tahmincilerin iyi tahminler yapmak için zamana, enerjiye ve kaynaklara ihtiyacı var; birkaç dakika içinde doğru bir olasılık tahmini yapamazlar. Teoride, iyi bir yapay zeka modeli yapabilir. İnternetin şafağından önce size bir yığın faydalı kitap göndermek için birkaç hafta harcayan bir araştırma kütüphanecisinin ne kadar faydalı olabileceğini, günümüzdeki Google’da arama yapma yeteneğiyle karşılaştırın. Her ikisi de size faydalı çıktılar verir. İyi bir kütüphanecinin çıktısı daha da faydalı olabilir. Ancak sonuçları anında almak inanılmaz derecede önemlidir ve hizmete olan talebi büyük ölçüde artırır.
Lightning Rod AI’nin kurucu ortağı Ben Turtel, tahminleme yapay zekasının özellikle birinin tahmincinin hızlı bir şekilde değerlendirebileceği çok sayıda yapılandırılmamış veriye sahip olduğu durumlarda faydalı olacağını hayal ediyor. Örneğin, bir hemşire veya doktorun, bir hastanın tıbbi kayıtlarındaki dağınık notlara ek olarak, sonuçları hastanın sigara içip içmediği veya yaşı gibi niteliklerle ilişkilendiren çalışmalardan elde edilen kanıtlara dayanarak, hastanın seyrini tahmin etmeye çalıştığını varsayalım. Bu, tek bir tarifi olmayan zor bir görevdir. Hastaya özgü verileri daha geniş kanıtlarla anında birleştirebilen ve bir olasılıkla bir prognozu sağlayabilen bir modele sahip olmak, işlerini önemli ölçüde kolaylaştıracaktır.
Benzer şekilde, yurt dışında faaliyet gösteren şirketler genellikle onlara örneğin "şu anda Ürdün’de çalışmak ne kadar tehlikeli" veya "Myanmar’da çalışırken bir darbe olma olasılığı nedir" sorusunu söyleyen siyasi risk danışmanlarına ödeme yaparlar. Gösterilebilir bir şekilde insanüstü yapay zeka tahminlemesi bu çalışmayı önemli ölçüde değiştirebilir ve bu danışmanlıkların çoğunu tehdit edebilir – eğer bu yapay zeka tahminlerine güveniliyorsa.
Ancak "eğer güveniliyorsa" kısmı çok önemli. Bir yapay zeka süper tahmincisi, başka bir şey olmasa bile, derinden garip bir varlık olacaktır. Amerika’nın seksenli yaşlarındaki başkanına yaklaşıp "Silikondan bir kahin yaptık ve artık savaşları CIA’den daha iyi tahmin ediyor. Bin yıllık birleşik deneyime sahip danışmanlarınızı değil, onu dinlemeniz gerekiyor" dediğinizi hayal edin. Tüm senaryo gülünç geliyor. Bir modelin bazı sorunlar konusunda insan uzmanlardan daha iyi olduğunu kanıtlayabilseniz bile, ilgili karar vericilerin bu gerçeği gerçekten inanması ve içselleştirmesi için uzun bir yol kat edilmesi gerekecektir. Modern LLM’lerin kara kutu doğası, sorunun bir parçasıdır: Birinden bir tahmin istediğinizde, bu cevaba ulaşmak için hangi hesaplamayı yaptığını eninde sonunda bilmiyoruz. LLM’lerden tahminlerinin açıklamalarını istendiği ve karar vericilerin yalnızca açıklamalar mantıklı geliyorsa yargılarına göre hareket ettikleri bir hibrit dönemi önce görebiliriz. Yine de, tıp gibi bazı bağlamlarda yapay zeka tavsiyesi üzerine hareket etmek, riskten kaçınan sağlayıcıları ve yöneticileri davalara veya daha kötüsüne açabilir.
Ancak garip gelen şeylere alışabiliriz. Burada iyi bir model Wikipedia olabilir. 2000’li yıllarda web sitesi popülerdi ve kalitesi giderek artıyordu, ancak onu alıntılamaya veya ona güvenmeye karşı güçlü normlar vardı. Herkes düzenleyebilirdi; açıkçası güvenilemezdi. Ancak zamanla, birçok konuda Wikipedia’nın daha geleneksel kaynaklardan eşit veya daha doğru olduğu netleştiğinde bu normlar aşındı.
Yapay zeka tahmin botları benzer bir yörünge izleyebilir. İlk başta, bir merak konusudurlar. Sonra, gizlice güvendiği birçok kişi için gizli bir zevktirler. Son olarak, bir şeyler yakaladıklarını kabul ediyoruz ve hepimizin karar verme şeklini şekillendirmeye başlıyorlar.