Brute-force AI dönemi bitiyor.

Oyun değişti.

Artık mesele en zeki modeli çalıştırmak değil.

Yeterince zeki, yeterince hızlı ve yeterince ucuz modellerle kaldıraç maliyetini aşağı çekmek.

Gemma 4’ün asıl anlamı burada yatıyor. Google, Gemma 4’ü 31B Dense, 26B MoE, E4B ve E2B varyantlarıyla tanıttı; 31B modeli açık modeller arasında üst sıralara yerleştirirken, aileyi özellikle “intelligence-per-parameter” yaklaşımıyla konumlandırdı.

Çoğu kişi Arena tablosuna bakıp bir skor yarışı gördü.

Bu yüzeysel bir okuma.

Google’ın burada piyasaya sürdüğü şey yalnızca yeni bir açık model ailesi değil. Daha önemli olan, maliyet-performans eğrisinde yeni bir eşik yaratmış olması. 31B Dense ve 26B MoE modellerinin açık model lider tablosunda güçlü konum alması önemli, ama asıl mesele bunu çok daha düşük donanım baskısıyla yapabilmeleri.

Bu da tesadüf değil.

Google uzun süredir ham model büyüklüğünden çok, aynı kabiliyeti daha düşük hesaplama yüküyle sunma yönünde ilerliyor. Mart sonunda duyurulan TurboQuant çalışması bunun açık örneği. Google Research, KV-cache darboğazlarını hedefleyen bu yöntemin bellek kullanımını ciddi biçimde azaltabildiğini, doğruluk kaybı olmadan yüksek sıkıştırma sağlayabildiğini ve H100 sınıfı donanımlarda daha hızlı çalışma sunduğunu söylüyor. TurboQuant ayrıca bazı deneylerde KV belleğini en az 6 kat küçültürken performansı koruyabildiğini ve 4-bit kullanımda H100 üzerinde ciddi hız artışı gösterdiğini raporluyor.

Doğrudan “Gemma 4 = TurboQuant” demek doğru olmaz.

Google bunu resmi olarak söylemiyor.

Ama stratejik çizgi çok net.

Aynı hedefe oynuyorlar: daha az bellek baskısı, daha yüksek throughput, daha az serving sürtünmesi ve çok daha erişilebilir donanım üzerinde çalışan daha kullanışlı zekâ. Gemma 4’ün çıkışı ile TurboQuant’ın hemen öncesindeki araştırma hattı birlikte okunduğunda, Google’ın ham ölçekten çok verimli ölçeğe yatırım yaptığı açıkça görülüyor.

Buradan rekabet tablosu daha anlamlı hale geliyor.

DeepSeek ve Qwen gibi modeller bir anda “kötü model” oldukları için baskı altına girmedi.

Sorun başka.

26B ya da 31B bandında bir model, bu kadar düşük donanım yüküyle bu kadar yaklaşabiliyorsa, orta-ölçekli açık model segmentinin ekonomik savunması zayıflıyor. Google, Gemma 4’ün kendisinden 20 kat büyük modellere karşı üstünlük gösterebildiğini açıkça söylüyor. Bunu pazarlama abartısı payıyla birlikte bile okusan, mesaj değişmiyor: artık aynı problem sınıfını çözmek için çok daha fazla GPU harcamak her senaryoda rasyonel görünmüyor.

Asıl ilginç kırılım ise üst segmentte.

GLM 5 ya da Kimi K2.5 gibi modeller bazı karşılaştırmalarda hâlâ küçük kalite avantajları taşıyabilir.

Ama artık belirleyici soru bu değil.

Belirleyici soru şu:

O son birkaç puan sana kaça mal oluyor?

Google, kuantize edilmemiş bfloat16 26B ve 31B modellerinin tek bir 80GB NVIDIA H100 üzerinde verimli biçimde çalışabildiğini söylüyor. 26B MoE modelinde inference sırasında toplam parametrenin yalnızca 3.8 milyarı aktive ediliyor; yani tasarım doğrudan latency ve token hızı lehine optimize edilmiş.

İşte burada tartışma “hangisi daha zeki?” olmaktan çıkıyor.

CapEx, bellek baskısı, latency, operasyonel karmaşıklık ve toplam sahip olma maliyeti tartışmasına dönüşüyor.

Gerçek dünyada hiçbir ciddi teknik yapı model kalitesini izole biçimde satın almaz.

Tam stack satın alır.

Inference donanımını satın alır.

Bellek payını satın alır.

Latency toleransını satın alır.

Operasyonel istikrarı satın alır.

Retry bütçesini satın alır.

Yani sistemin tamamını satın alır.

Bu yüzden agentic mimari burada kritik hale geliyor.

Google, Gemma 4’ü yalnızca reasoning modeli olarak değil; function calling, structured JSON output, native system instructions ve agentic workflow desteğiyle konumluyor. Bu çok önemli. Çünkü biraz daha küçük ama çok daha ucuz bir model, iyi tasarlanmış bir agentic döngü içinde çok daha büyük bir modeli sistem seviyesinde yakalayabiliyor, hatta bazı kullanım senaryolarında geçebiliyor.

Asıl kaldıraç burada.

Modeli büyüterek değil, sistemi akıllandırarak fark kapatıyorsun.

Tool use.

Reflection.

Task decomposition.

Retries.

Workflow control.

Bunların hepsi, ham parametre artışından çok daha ucuz bir kalite çarpanı sunabiliyor.

Bu yüzden Gemma 4’ün anlamı “en zeki açık model” olması değil.

Daha önemli olan, büyük model stratejilerinin önemli bir bölümünü ekonomik olarak sorgulanır hale getirmesi.

Ve bu mantık sadece veri merkezinde kalmıyor.

E2B ve E4B varyantları aynı stratejiyi edge katmanına taşıyor. Google bu modelleri telefonlar, Raspberry Pi, NVIDIA Jetson Orin Nano gibi cihazlarda near-zero latency ile tamamen offline çalışacak şekilde konumlandırıyor; ayrıca Pixel, Qualcomm ve MediaTek ile yapılan iş birliklerini de vurguluyor.

Tüketici bunu “telefonumda AI çalışıyor” diye okur.

Stratejik okuma farklıdır.

Google, inference maliyetinin daha büyük bölümünü kullanıcı donanımına dağıtıyor.

Yani yalnızca model sunmuyor.

Seni deployment yüzeyinin bir parçasına dönüştürüyor.

Bu yüzden Gemma 4, sıradan bir açık model lansmanı değil.

Bu, sektörün ağırlık merkezinin nereye kaydığını gösteren bir işaret.

Ham ölçekten uzaklaşıyoruz.

Kör model büyüklüğü hayranlığından uzaklaşıyoruz.

Verimli zekâya yaklaşıyoruz.

Agentic kaldıraç noktasına yaklaşıyoruz.

Mutlak olarak en iyi olanın değil, gerçek dünyada ekonomik olarak daha üstün olanın kazandığı mimarilere yaklaşıyoruz.

Hâlâ bu pazarı sadece leaderboard yarışı gibi okuyorsan, arayüze bakıyorsun.

Asıl savaş bir katman aşağıda yaşanıyor.

Bellekte.

Throughput’ta.

Deployment maliyetinde.

Sistem tasarımında.

Gemma 4’ün asıl oturduğu yer tam olarak burası.