Yandex Araştırmaları LLM’leri Sıkıştırmak İçin Yeni Usuller Geliştirerek Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttı

Yandex Araştırma grubu, IST Austria, NeuralMagic ve KAUST araştırmacılarla işbirliği yaparak büyük lisan modelleri için iki yeni sıkıştırma sistemi geliştirdi: Lisan Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning. Bu usuller bir ortaya getirildiğinde model boyutunda 8 kata kadar azalma sağlarken cevap kalitesini %95 oranında koruyor. Kaynakları optimize etmeyi ve büyük lisan modellerinin çalıştırılmasında verimliliği artırmayı amaçlayan bu yeni yaklaşımın ayrıntılarına dair makale, şu an Viyana, Avusturya’da devam etmekte olan Milletlerarası Makine Tahsili Konferansı’nda (ICML) yer aldı.

AQLM ve PV-Tuning’in temel özellikleri

AQLM, LLM sıkıştırması için klâsik olarak bilgi erişiminde kullanılan eklemeli niceleme prosedüründen yararlanıyor. Ortaya çıkan prosedür çok sıkıştırma altında modelin doğruluğunu koruyup geliştiriyor, böylelikle LLM’lerin konut bilgisayarları üzere günlük aygıtlarda yaygınlaştırılmasını mümkün kılıyor. Bu, bellek tüketiminde kıymetli bir azalmaya neden oluyor.

PV-Tuning ise model sıkıştırma süreci sırasında ortaya çıkabilecek yanlışları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sonlu bilgi süreç kaynaklarında bile yüksek kalitede cevaplar sağlayabilen kompakt bir model eşliğinde optimum sonuçlar sunuyor.

Yöntem kıymetlendirme ve tanıma

Sunulan prosedürlerin aktifliği, LLama 2, Mistral ve Mixtral üzere tanınan açık kaynaklı modeller kullanılarak titizlikle değerlendirildi. Araştırmacılar bu büyük lisan modellerini sıkıştırarak karşılık kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile kıymetlendirdi. Modeller 8 kat sıkıştırılmalarına rağmen %95 üzere etkileyici bir oranda cevap kalitesini muhafazayı başardı.

AQLM ve PV-Tuning’den kimler yararlanabilir

Yeni metotlar, tescilli lisan modellerini ve açık kaynaklı LLM’leri geliştiren ve dağıtan şirketler için değerli ölçüde kaynak tasarrufu sağlıyor. Örneğin sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli artık 4 yerine yalnızca 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlıyor. Bu da teşebbüslerin, ferdi araştırmacıların ve LLM meraklılarının Llama üzere gelişmiş LLM’leri günlük kullandıkları bilgisayarlarda çalıştırabilecekleri manasına geliyor.

Yeni LLM uygulamalarını keşfetmek

AQLM ve PV-Tuning, modellerin sonlu hesaplama kaynaklarına sahip aygıtlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları sağlar. Bu aygıtlara entegre edilen gelişmiş LLM’ler sayesinde kullanıcılar metin ve manzara oluşturma, sesli yardım, şahsileştirilmiş teklifler ve hatta gerçek vakitli lisan çevirisini etkin bir internet ilişkisine muhtaçlık duymadan kullanabiliyor.

Ayrıca, bu usuller kullanılarak sıkıştırılan modeller daha az hesaplama gerektirdiğinden 4 kata kadar daha hızlı çalışabiliyor.

Uygulama ve erişim

Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub’da bulunan AQLM ve PV-Tuning’i kullanabiliyor. Geliştiriciler tarafından sağlanan demo gereçleri, çeşitli uygulamalar için sıkıştırılmış LLM’leri tesirli bir biçimde eğitmek için rehberlik sunuyor. Ayrıyeten geliştiriciler, bu sistemler kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri indirebiliyorlar.

ICML’de öne çıktı

Yandex Research’ün AQLM sıkıştırma metoduna ait bilimsel makalesi, dünyanın en itibarlı makine tahsili konferanslarından biri olan ICML’de yayınlandı. IST Austria’dan araştırmacılar ve yapay zeka teşebbüsü Neural Magic’ten uzmanlarla birlikte hazırlanan bu çalışma, LLM sıkıştırma teknolojisinde kıymetli bir ilerleme manasına geliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı

Yandex Araştırmaları LLM’leri Sıkıştırmak İçin Yeni Usuller Geliştirerek Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttı

Yandex Research, IST Austria, NeuralMagic ve KAUST, karşılık kalitesini %95 oranında korurken model boyutunu 8 kata kadar azaltan iki büyük lisan modeli (LLM) sıkıştırma metodu AQLM ve PV-Tuning’i geliştirerek açık kaynak kodlu hale getirdi.