Google, dizüstü bilgisayarlarda çalışabilen yeni açık kaynak yapay zeka modeli Gemma 4 12B'yi tanıttı

Google, açık kaynak yapay zeka model ailesi Gemma’nın yeni üyesi Gemma 4 12B’yi duyurdu. Şirketin açıklamasına göre yeni model, yalnızca 16 GB RAM veya VRAM’e sahip her bilgisayarda çalışabilecek şekilde tasarlanırken gelişmiş çoklu mod yetenekleri ve yeni mimarisiyle dikkat çekiyor.

Nisan ayında Apache 2.0 lisansı altında yayınlanan Gemma 4 ailesi; mobil cihazlara yönelik optimize edilen E2B ve E4B modellerinin yanı sıra daha yüksek performans gerektiren uygulamalar için geliştirilen 26B Mixture of Experts (MoE) ve 31B Dense modellerini içeriyordu. Google, yeni Gemma 4 12B’nin ise hafif modeller ile güçlü 26B MoE modeli arasındaki performans ve donanım gereksinimi boşluğunu doldurduğunu belirtiyor.

Şirketin paylaştığı bilgilere göre Gemma 4 12B, mobil sürümlere kıyasla önemli ölçüde daha yüksek yetenekler sunarken çalıştırılabilmesi için pahalı yapay zeka hızlandırıcılarına ihtiyaç duymuyor. Model, yanızca 16 GB RAM ile çalışabilirken Gemma 4 26B MoE modelinin ihtiyaç duyduğu toplam belleğin yaklaşık yarısını kullanıyor.

Modelin öne çıkan özelliklerinden biri de yerel ses desteği sunması. Google, Gemma 4 12B’nin Gemma ailesi içerisinde ses girdisini yerel olarak destekleyen ilk orta ölçekli model olduğunu ifade ediyor. Böylece kullanıcılar, ses ve görüntü verilerini doğrudan işleyebilen daha gelişmiş uygulamalar geliştirebilecek.

Bir diğer dikkat çekici yenilik ise Multi-Token Prediction teknolojisi. Bu sistem, modelin yalnızca bir sonraki tokeni değil aynı anda birden fazla olası tokeni tahmin etmesini sağlıyor. Böylece yanıt üretim sürecindeki gecikmeler azaltılırken performansın korunması hedefleniyor.

Gemma 4 12B’nin en önemli teknik farklılıklarından biri ise multimodal mimarisinde yatıyor. Şirket, görüntü işleme için ayrı bir kodlayıcı kullanmak yerine görsel verileri doğrudan büyük dil modeline aktarabilen optimize edilmiş bir gömme modülü geliştirdi.

Ses tarafında da geleneksel ses kodlayıcılarından vazgeçilerek ham ses sinyalinin doğrudan metin belirteçleriyle aynı temsil alanına dönüştürülmesi sağlandı. Bu yaklaşım, ses ve görüntü girdilerinin ayrı kodlayıcılara ihtiyaç duymadan doğrudan model omurgasına aktarılmasına olanak tanıyor.

Google’ın paylaştığı verilere göre Gemma 4 ailesi 150 milyon indirmeyi aşmış durumda. Geliştiriciler yeni modele LM Studio, Ollama, Google AI Edge Gallery, Google AI Edge Eloquent ve LiteRT-LM CLI üzerinden erişebilirken önceden eğitilmiş ve instruction-tuned sürümler ise Hugging Face ve Kaggle platformlarından indirilebiliyor.