Yandex, Büyük Dil Modelleri İçin Yeni Sıkıştırma Yöntemleri Geliştiriyor

Yandex Araştırma Ekibi, Yeni Sıkıştırma Yöntemleri Geliştirdi

Yandex’in araştırma ekibi, IST Austria, NeuralMagic ve KAUST gibi önde gelen araştırma kurumlarıyla iş birliği yaparak büyük dil modelleri (LLM) için iki yenilikçi sıkıştırma yöntemi geliştirdi: Eklemeli Niceleme (AQLM) ve PV-Tuning. Araştırma ekibi, bu yöntemlerin bir araya getirilmesiyle model boyutunda 8 kata kadar bir azalma sağlanabileceğini iddia ederken, yanıt kalitesinin de %95 oranında korunduğunu belirtiyor. Bu yeni yaklaşım, kaynakları optimize etmeyi ve büyük dil modellerinin çalıştırılmasında verimliliği artırmayı hedefliyor. Geliştirilen yöntemlerin detaylarına dair makalenin, Viyana, Avusturya’da devam eden Uluslararası Makine Öğrenimi Konferansı’nda (ICML) yer aldığı bildirildi.

AQLM ve PV-Tuning Nedir?

AQLM, büyük dil modellerinin sıkıştırılmasında bilgi erişiminde yaygın olarak kullanılan eklemeli niceleme yöntemlerinden faydalanıyor. Bu yöntem, aşırı sıkıştırma altında bile modelin doğruluğunu koruyup geliştirerek, LLM’lerin ev bilgisayarları gibi günlük kullanıma uygun cihazlarda daha yaygın hale gelmesini sağlıyor. Bu durum, bellek tüketiminde önemli bir azalma ile sonuçlanıyor.

PV-Tuning ise sıkıştırma esnasında ortaya çıkabilecek hataları düzeltmek amacıyla geliştirilmiş bir yöntem. AQLM ve PV-Tuning’in birleşimi, sınırlı bilgi işlem kaynaklarına sahip ortamlarda bile yüksek kalitede yanıtlar sunabilen kompakt bir model yaratıyor.

Yöntemlerin Değerlendirilmesi

Geliştirilen yöntemlerin etkinliği, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modeller kullanılarak kapsamlı bir şekilde test edilmiştir. Araştırmacılar, bu büyük dil modellerini sıkıştırarak cevap kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile değerlendiriyor. Modeller, 8 kat sıkıştırılmalarına rağmen %95’lik bir oranla yanıt kalitesini korumayı başarmışlardır.

AQLM ve PV-Tuning’den Kimler Yararlanabilir?

AQLM ve PV-Tuning yöntemlerinin, tescilli dil modellerini ve açık kaynaklı LLM’leri geliştiren ve dağıtan şirketler için büyük ölçüde kaynak tasarrufu sağlama potansiyeli bulunuyor. Örneğin, sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli, artık 4 yerine yalnızca 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlayabiliyor. Bu da girişimlerin, bireysel araştırmacıların ve LLM tutkunlarının, Llama gibi gelişmiş dil modellerini günlük bilgisayarlarında kullanabilmelerine olanak tanıyor.

Yeni LLM Uygulamalarını Keşfetmek

AQLM ve PV-Tuning’in, modellerin sınırlı hesaplama kaynaklarına sahip cihazlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları oluşturabileceği belirtiliyor. Araştırmacılar, bu cihazlara entegre edilen gelişmiş LLM’ler sayesinde kullanıcıların metin ve görüntü oluşturma, sesli yardım, kişiselleştirilmiş öneriler ve gerçek zamanlı dil çevirisini aktif bir internet bağlantısına ihtiyaç duymadan gerçekleştirebileceğini ifade ediyor.

Uygulama ve Erişim

Şu anda dünya genelindeki geliştiriciler ve araştırmacılar, GitHub üzerinden AQLM ve PV-Tuning yöntemlerini kullanabiliyor. Geliştiriciler tarafından sağlanan demo materyalleri, çeşitli uygulamalar için sıkıştırılmış LLM’leri etkili bir şekilde eğitmek için rehberlik sunuyor. Ayrıca, geliştiriciler bu yöntemler aracılığıyla sıkıştırılmış popüler açık kaynaklı modelleri de indirebiliyorlar.

ICML’de Öne Çıktı

Yandex Research’ün AQLM sıkıştırma yöntemine ilişkin bilimsel makalesi, dünyanın en prestijli makine öğrenimi konferanslarından biri olan ICML’de yayımlanmıştır. IST Austria’dan araştırmacılar ve yapay zeka girişimi Neural Magic’ten uzmanlarla birlikte hazırlanan bu çalışma, büyük dil modellerinin sıkıştırma teknolojisinde önemli bir ilerleme kaydedildiğini göstermektedir.