menu_open Columnists
We use cookies to provide some features and experiences in QOSHE

More information  .  Close

Model savaşları

17 3
02.02.2025

Diğer

T24 Haftalık Yazarı

02 Şubat 2025

Ne hafta oldu ama… Sahiden, ne hafta. Ülke olarak gündemde soruşturmalar, gözaltılar, ifadelerle dolu bir haftayı geçirirken, “biz ne ile uğraşıyoruz el alem ne ile” dercesine dünya da bu haftayı Çin merkezli DeepSeek-R1 büyük dil modeli ve onun başta Amerika’daki büyük teknoloji şirketleri ve borsasına olan etkisiyle geçirdi.

Olan bitenle ilgili pek çok içerik çekildi ya da yayınlandı, o yüzden bu yazı belki biraz geç kalsa da en azından derli toplu tüm süreci özetlemesi anlamında yine faydalı olacaktır diye umut ediyorum.

Çinli milyarder iş insanı Liang Wenfeng tarafından Mayıs 2023’te kurulan DeepSeek, ki bu konuda çok büyük basın kurumları bile Aralık 2023 olduğunu yazmış, fakat Mayıs 2023, Kasım 2023’te ilk modeli olan ve bir tür kodlama asistanı olan açık kaynaklı DeepSeek Code’ı piyasa sürdü. Ancak şirketi Ocak 2025’te bu kadar popüler yapan şey ise 20 Ocak günü duyurdukları DeepSeek-R1 isimli yine açık kaynak olan dil modeli oldu.

Şirketin daha önce paylaşmış olduğu DeepSeek-V3 isimli dil modelinin “muhakeme” (reasoning) yeteneğine sahip ilk ve en güncel versiyonu olan DeepSeek-R1’den teknik olarak bahsedersek eğer, ilk karşımıza çıkan noktanın modelin takviye öğrenme (reinforcement learning) kullanılarak eğitilmesi olduğunu görüyoruz. Bu sayede modelin hatalarını düzeltebilme ve optimal sonuçlar üretme yeteneğini geliştirmek amaçlanıyor. Ayrıca yine takviye öğrenim sayesinde modelin otomatik mantık yürütme ve detaylı çıkarım zincirleri oluşturma gibi özellikleri, matematiksel ve mantıksal problemlerde daha yüksek doğruluk sağlıyor.

Bir başka dikkat çeken nokta ise modelin görevler sırasında tüm parametrelerini kullanmaya gerek duymaması. Mixture of Experts (MoE) mimarisiyle 671 milyar parametreye sahip olmasına rağmen, her işlemde yalnızca 37 milyar parametre aktifleşerek donanım maliyetini ve kaynak tüketimini önemli ölçüde azaltıyor. Keza yine genellikle zaman alan ve yetenek kaybına yol açan distilasyon işlemi; büyük ve başarılı modelden küçük modele bilgi ve beceri aktarımı; bu modelde hızlı ve verimli bir şekilde gerçekleşiyor ki böylece kısıtlı şartlarda optimum sonuç alınması hedefleniyor.

Ancak bu teknik farklılıklar sadece ufak bir nüans olarak sunuluyor model tarafından. DeepSeek-R1 performans olarak diğer modellerden, örneğin OpenAI’ın o1 modeli gibi, daha akıllı değil. Keza üretken yapay zekâ ekosistemine de yeni bir şey sunmadı teknik açıdan aslında. Tüm dil modelleri gibi halüsinasyon (yalan bilgi söyleme) problemini de yaşıyor. Ancak maliyetleri… Asıl dalgayı yaratan şey bu oldu.

Daha önceki yazılarda da belirttiğim gibi bu kadar başarılı ve kapsamlı modellerin eğitimi için çok güçlü hesaplama çipleri kullanmak gerekiyor ve bugün neredeyse bu çip marketinin ’i ABD merkezli NVDIA tarafından domine edilmiş durumda. Tabii bu mecburiyet de şirketin değerine değer katıyor.

Belki de tüm dünyayı büyük dil modelleriyle tanıştıran şirket olan OpenAI da haliyle NVDIA’nın en güncel çiplerinin sıkı bir kullanıcısı, her ne........

© T24