menu_open
Columnists Actual . Favourites . Archive
We use cookies to provide some features and experiences in QOSHE

More information  .  Close
Aa Aa Aa
- A +

Çooook büyük bir dil modeli

18 1
28.07.2024

Diğer

T24 Haftalık Yazarı

28 Temmuz 2024

Yapay zekâ alanındaki ilerlemeler aslında yeni değil, uzun zamandır var. Ancak Kasım 2022'de "herkesin" erişimine açık bir şekilde sunulan, Generative Pretrained Transformer (GPT) (Üretken Önceden Eğitilmiş Dönüştürücü) kullanılarak eğitilen bir Large Language Model (Büyük Dil Modeli) olan ChatGPT, hem bu alandaki gelişmelere yönelen dikkati arttırdı hem de bu gelişmeleri hızlandıran bir etki yarattı. Bu yazıda, bu alandaki en son gelişme olan, eğer başka bir gelişme olmazsa, büyük bir teknoloji şirketinin yeni dil modeli Llama 3.1 hakkında konuşmak istiyorum. Ancak yazının devamına geçmeden önce bazı terimleri bilmekte fayda var.

Büyük dil modelleri, geniş veri kümeleri üzerinde eğitilerek dilin kurallarını ve kalıplarını öğrenen ve bu bilgiyi çeşitli görevlerde kullanan yapay zekâ modelleridir. Bu tanımdaki "büyük" terimi, hem modelin boyutunu hem de eğitildiği veri kümesinin büyüklüğünü ifade eder. Bu modeller, metin üretme, metin tahmini, çeviri, soru-cevap sistemleri gibi çeşitli görevlerde kullanılır.

Her ne kadar "büyük" ifadesi, modellerin eğitimi için kullanılan verinin boyutunu ifade etse de, pratikte büyük dil modeli alanında yaşanan "büyük" sermayelerin rekabetini de yansıtıyor. Reklam olmaması açısından isim veremediğim, ancak Elon Musk ve Mark Zuckerberg gibi isimlerin şirketlerinin yarıştığı, tabir yerindeyse "oyun alanları" halini alan bir gerçeklik var. Bu başka bir yazının konusu olsun ve biz bu yarışın "şimdilik" iyi taraflarına odaklanalım diyerek Pollyannavari bir tavır içinde, gerekli tanımları yaptıktan sonra Llama 3.1 modelinden bahsedelim.

Llama 3.1, tıpkı diğer büyük dil modelleri gibi geniş veri kümeleri üzerinde eğitilerek dilin kurallarını ve kalıplarını öğrenen bir yapay zekâ modeli. Bu model, metin tahmini, çeviri, soru-cevap sistemleri gibi çeşitli görevlerde kullanılıyor ve farklı dillerde metinleri anlama ve üretme yeteneğine sahip.

Algoritmik olarak, Llama 3.1, önceki versiyonlarına ve orijinal Transformer makalesine oldukça yakın, bu da o zamandan beri ne kadar az şeyin değiştiğini gösteriyor. Ancak bu modelde, eğitim istikrarsızlığı endişeleri nedeniyle, modelin uzmanlarına ayrılarak daha hızlı sonuçlar elde etmeyi amaçlayan "mixture-of-experts" mimarilerinden uzak durulmuş. Bunun yerine, daha hızlı çıkarım için kuantize edilmiş bir versiyon yayınlamışlar.

Llama 3.1'in en dikkat çekici özelliklerinden biri, modelin eğitiminde kullanılan verilerin büyük bir kısmının sentetik (yapay olarak üretilmiş) veri........

© T24


Get it on Google Play