Çin merkezli yapay zeka girişimi DeepSeek, büyük dil modellerinin yanıt üretim performansını artırmayı hedefleyen yeni çıkarım optimizasyonu DSpark’ı duyurdu. Şirketin paylaştığı verilere göre yeni teknoloji özellikle yoğun kullanım senaryolarında kullanıcı başına yanıt üretim hızını %85’e kadar artırabiliyor.
DSpark, yeni bir model geliştirmek yerine DeepSeek-V4 modelleri üzerine entegre edilen bir çıkarım modülü olarak çalışıyor. Böylece modelin temel yetenekleri değiştirilmeden aynı altyapı üzerinden çok daha hızlı yanıt üretimi sağlanması hedefleniyor. DeepSeek, sistemin halihazırda DeepSeek-V4 Flash ve DeepSeek-V4 Pro sürümlerinde canlı trafik üzerinde kullanılmaya başlandığını açıkladı.
Teknolojinin temelinde yanıt oluşturulmadan önce olası token’ları tahmin eden hafif bir “draft model” bulunuyor. Bu model tarafından oluşturulan aday token’lar daha sonra ana model tarafından toplu şekilde doğrulanıyor. Böylece geleneksel yöntemlerde olduğu gibi her token’ın tek tek üretilmesi yerine daha paralel bir üretim süreci elde ediliyor.

DSpark’ı benzer çözümlerden ayıran nokta ise yarı-otoregresif üretim yaklaşımı ile güvene dayalı doğrulama mekanizmasını bir araya getirmesi. Sistem, hangi aday token’larının doğrulanmaya değer olduğunu hesaplayarak GPU kaynaklarının daha verimli kullanılmasını sağlıyor ve gereksiz hesaplama yükünü azaltıyor.
DeepSeek’in gerçekleştirdiği testlere göre DSpark, önceki nesil MTP-1 yaklaşımına kıyasla Flash modelinde kullanıcı tarafındaki üretim hızını %60-85, Pro modelinde ise %57-78 arasında artırdı. Şirket ayrıca DSpark’ın mevcut spekülatif çözümleme yöntemleri arasında yer alan Eagle3 ve DFlash ile karşılaştırıldığında daha uzun kabul edilen token dizileri üretebildiğini belirtti.
DeepSeek ayrıca DSpark ile birlikte geliştiricilere yönelik DeepSpec adlı açık kaynak araç setini de kullanıma sundu. MIT lisansı ile GitHub üzerinden yayınlanan DeepSpec; veri hazırlama, draft model eğitimi ve performans değerlendirme süreçlerini kapsayan uçtan uca bir geliştirme altyapısı sunuyor.
Araç seti şu anda DSpark, DFlash ve Eagle3 algoritmalarını desteklerken Qwen3 ve Gemma model aileleriyle de uyumlu çalışabiliyor. DeepSeek, bu adımla yalnızca kendi modellerinin performansını değil, spekülatif çözümleme alanındaki geliştirmelerin daha geniş bir geliştirici topluluğu tarafından kullanılmasını da hedefliyor.