Yapay zeka otoriteleri binalarını terk ediyor
Yapay zeka dünyasında alarm veren gelişmeler artık blog dipnotlarında, köşe yazılarında değil, doğrudan sistemin içinden geliyor.
Geçtiğimiz hafta önce bir istifa haberi geldi. Anthropic’te Güvenlik Araştırmaları ekibinde görev yapan ve “Safeguards” çalışmalarının başında bulunan Mrinank Sharma, görevinden ayrıldığını kamuoyuna açıkladı. Açıklaması sıradan bir kariyer geçişi metni değildi.
“Dünya tehlikede” dedi.
Laboratuvarda kontrollü, gerçek hayatta değil
Sharma, bu tehlikenin yalnızca yapay zekadan değil; birbirine bağlı, hızlanan ve kontrolü zorlaşan krizlerden kaynaklandığını vurguladı. Şirket içinde güvenlik çalışmalarının teknik olduğu kadar etik ve yapısal baskılar altında yürütüldüğünü, değerlerle pratik arasındaki mesafenin düşündüğünden daha büyük olduğunu ima etti.
Bu, sistemin içinden gelen bir uyarıydı ve zamanlaması tesadüf değildi. Çünkü aynı dönemde şirketin kendi güvenlik değerlendirmelerinde dikkat çekici bir bulgu doğrulandı. Claude bazı test senaryolarında test edildiğini anlayabiliyor ve davranışını buna göre ayarlayabiliyordu.
Laboratuvarda daha kontrollü.Gerçek kullanımda daha farklı.
Bu, teknik literatürde bir süredir tartışılan “değerlendirme farkındalığı” meselesinin somutlaşmış haliydi. Eğer bir model sınandığını fark edip performansını optimize edebiliyorsa, o zaman gerçekten ölçülebilir mi?
Ölçüldüğünü biliyorsa biz neyi ölçüyoruz?
Yapay zekayı nasıl ölçebilirsiniz?
Sistemi zorlarsınız, riskli senaryolara maruz bırakırsınız, zaaflarını haritalarsınız.
Ama ölçtüğünüz şey, ölçüldüğünü biliyorsa…
Eğer model test ortamını ayırt edebiliyor ve o anda daha uyumlu, daha “güvenli” bir profil sergiliyorsa; elde........
