Yapay zekâ kalite testleri gerçekten kusursuz mu?
Diğer
02 Mart 2025
Geçtiğimiz aya damga vuran DeepSeek’in üzerinden bir ay geçti, ancak bu süreç içinde büyük dil modelleri ailesi büyümeye devam etti. En çok konuşulan yeni üyeler ise önce Elon Musk’un Grok’u, sonra Antropic’in Claude 3.7’si ve son olarak da OpenAI’ın ChatGPT 4.5’i oldu. Daha önceki yazılarda da belirttiğim gibi, artık dil modelleri bir yarış parkuru ve yarışmacılar, ki burada genellikle şirketler ya kendilerinin bir önceki modelinden ya da o an için en popüler olan modelden daha iyi bir model üretmek için çabalıyor. Peki bir modelin başka bir modelden iyi olması sonucuna nasıl varılır?
Cevabı zor bir soru değil bu elbette. Büyük Dil Modellerinin performans kıyaslamasını yapmak için Türkçesi kalite testi olarak ifade edilen ancak hem teknik hem de günlük dilde daha çok benchmark diye adlandırdığımız standartlaştırılmış test ve değerlendirme sistemleri kullanılır Bu sistemler, modellerin anlama, akıl yürütme, yaratıcılık, çok dillilik ve özel alan bilgisi gibi çeşitli yeteneklerini karşılaştırmalı olarak değerlendirerek geliştiricilere ve kullanıcılara rehberlik eder ve benchmarklarda yüksek skoru elde eden modeller, düşük skorlu modellere göre daha iyi kabul edilr.
Ancak benchmark sonuçlarına dair yapılan yorumlar “maalesef” bu masumiyette kalmıyor. Biraz etkileşim, biraz yüzeysel bilgi sahibi olmak ya da adlandıramadığım başka nedenler, bu sonuçlara dair “abartı” yorumların yapılmasına neden oluyor. Nasıl mı?
- İnsan zekâsından üstte bir model.
- Yaptığı şeyler mucizevi.
- Uçuyor, kaçıyor.
- 4 SENE SONRA YAPAY ZEKÂ BAŞKA BİR BOYUTA GEÇECEK. (Ünlü finans profesörümüzü tekrar analım. Kendisi geçtiğimiz günlerde bir robot ev yardımcı videosu paylaşarak dillere pelesenk “Bak ben demiştim” minvali paylaşımlarına bir yenisini eklemişti.)
İşte asıl sorulması gereken sorunun yeri geldi. Peki bu benchmarklar gerçekten bu kadar abartı ve yüksek perdeden yorum yapılmasını........
© T24
