AGI sloganları teste takıldı
Open AI, video üreticisi Sora’yı şirketin geliştirmekte olduğu yeni geniş dil modeli (LLM) Spud’ın geliştirilmesine odaklanmak için kapattığını ve “ürün organizasyonu” birimini “AGI dağıtımı” olarak yeniden adlandırdığını duyurdu. Sora’nın neden kapatıldığı sorusunu üretken yapay zeka (Gen. AI) ile video üretiminin gerektirdiği yüksek işlem gücü maliyeti ve bu alandaki diğer şirketlerin rekabeti ile büyük ölçekte açıklayabiliriz. Ancak AGI (yapay genel zeka) vurgusuna biraz daha yakından bakmamız lazım çünkü diğer yapay zeka şirketlerinden de “AGI, AGI…” bağırışları yeniden yükselmiş durumda.
Nvidia CEO’su Jensen Huang, Lex Friadman ile yaptığı programda AGI’nin çoktan geldiğini iddia etti. Huang’a haksızlık yapmamak için AGI tanımının programdaki tartışma bağlamında “Bir şirketi kurup çalıştırarak 1 milyar dolar ciroya ulaştırmak” olduğunu not düşelim. Özetleyecek olursak Huang’ın iddiası oldukça karmaşık ve grift süreçlerin güncel LLM’ler ve OpenClaw gibi sistemler aracılığı ile mümkün olduğu. Altına hücumun kürek satıcısının bir yerlerde altın bulunduğunu iddia etmesinde garipsenecek bir şey yok elbette. Tıpkı bir diğer kürek satıcısı olan ARM’nin yeni 136 çekirdekli veri merkezi işlemcisini AGI CPU olarak adlandırması gibi. ARM CEO’su Rene Haas mevcut AI modellerinden ajan tabanlı modellere geçiş ile birlikte ‘kürek ihtiyacının’ dört kat arttığını, gigawatt başına işlemci çekirdeği ihtiyacının 30 milyon çekirdekten 120 milyon çekirdeğe çıktığını ifade ediyor.
Teknoloji şirketleri AGI kavramını işlerine geldiğince sağa sola fırlatmakta ortaklaşsa da AGI’nin kabul gören net bir tanımı bulunmuyor. En kaba tanımla hemen her alanda ortalama insanın bilişsel seviyesinde faaliyet gösterebilen sistemler diyebiliriz. Böyle sistemlerin hayata geçirilmesi güncel teknolojilerle mümkün olmadığından teknoloji şirketleri de ihtiyaca göre kale direğini kaydırıyor. Oysa ortada AGI’nin ‘genel zeka’ kısmını karşılayabilen bir ürün yok. Genel zekayı yeni -eğitim materyalinde olmayan- bir durum ya da probleme uyum sağlayabilmek, çözmek üzere şekil alıp strateji geliştirmek olarak tanımlayabiliriz. İnsanlar için rutin bir beceriden bahsediyoruz. Ve bunu ölçmek üzere şekillenmiş bir test var: ARC-AGI
ARC-AGI testleri insanların hiçbir eğitim ya da talimat olmadan çoğunlukla ilk denemede tümünü kolayca çözebildiği, güncel modellerin ise çözmekte zorlandığı testler. Testin birinci ve ikinci sürümleri bir sonraki ögeyi tahmin etmeye dayalı statik görsel bulmacalardı. Şirketlerin bunları baz alarak eğitim modellerine yeterince işlemci gücü ayırmasının ardından mevcut modellerce çözülebilir hale gelmişlerdi. Testin son sürümü olan ARC-AGI-3 ise her biri test kümesinden seçilen on kişiden en az ikisi tarafından ilk denemede çözülebilmiş, bir kısmını ekteki bağlantıdan sizin de deneyebileceğiniz 135 adet oyunlaştırılmış interaktif bulmacadan oluşuyor. Testin neden bulmaca oyunlarına yakınsadığı ve oyunların zeka ile ne alakası olduğu tartışmalarını başka bir yazıya bırakıp sonuçlara bakalım. Teste sokulan 4 güncel modelden hiçbiri 100 üzerinden 1 puana dahi yaklaşamadı. Google’ın Gemini 3.1 Pro Preview’i yüzde 0.37, OpenAI’ın GPT 5.4 High’ı yüzde 0.26, Anthropic’in Opus 4.6 Max’ı yüzde 0.25 ve XAI’ın Grok’u ise kusursuz, küsuratsız 0 puan almayı başardı.
ARC-AGI testleri mutlak bir ölçüt değil. Özellikle testlerin çözümlerinin model eğitim materyallerine eklenmesiyle birlikte model puanlarının önceki testlerde olduğu gibi yükseleceğini, eğitim materyallerinde yer almayan yeni tasarlanmış bir testle skorların yine benzer şekilde düşeceğini söyleyebiliriz. Bütün kusurlarına rağmen ARC-AGI testlerinin somutladığı bir şey var: Henüz insan bilişsel kapasitesi ile AGI olduğu ya da AGI’ye yaklaştığı iddia edilen modeller arasında dev bir uçurum var. “AGI tamam sıra ASI’de (yapay süper zeka)” gibi sloganvari saçmalıklar bu uçurumun üstünü örtmeye yetmiyor.
