Çin’in, DeepSeek’in en yeni projesiyle Hopper H800 yapay zeka hızlandırıcılarıyla sekiz kat TFLOPS artışı sağlamasıyla, NVIDIA’nın “kısıtlanmış” yapay zeka hızlandırıcılarına bir alternatif bulmayı başardığı bildiriliyor.
Görünüşe göre Çin, donanım yeteneklerini artırmak için kimseye bağımlı değil; yerli şirketler, özellikle DeepSeek, ellerindeki ekipmanla çözüm yolları bulmak için yazılımın gücünden yararlanıyor. DeepSeek tarafından yapılan son gelişmeler, piyasalarda gördüğümüz en çılgın gelişmelerden bazıları; firmaya göre, NVIDIA’nın “kısıtlanmış” Hopper H800 GPU’larından, temel olarak bellek tüketimini ve çıkarım istekleri arasında kaynak tahsisini optimize ederek önemli performans elde etmeyi başardılar. Hızlı bir arka plan bilgisi: DeepSeek, genel halkın Github depoları aracılığıyla kolayca erişebileceği teknolojileri ve araçları tanıtmayı planladığı bir “Açık Kaynak” haftası düzenliyor. Firmanın Hopper GPU’ları için özel olarak tasarlanmış bir “kod çözme çekirdeği” olan FlashMLA’yı tanıtmasıyla ilk gün harika bir başlangıç gibi görünüyor. Nasıl çalıştığına geçmeden önce, piyasalara getirdiği geliştirmelere hızlıca bir göz atalım ve bunlar kesinlikle devrim niteliğinde.
DeepSeek, Hopper H800 üzerinde BF16 matris çarpımı için endüstri standardı derecelendirmesinden yaklaşık sekiz kat daha yüksek olan 580 TFLOPS elde etmeyi başardıklarını iddia ediyor. Sadece bu değil, aynı zamanda verimli bellek kullanımıyla FlashMLA, H800’ün teorik tepe noktasının neredeyse iki katı olan 3000 GB/sn’ye kadar bellek bant genişliği sağlıyor. Burada önemli nokta, tüm bunların donanım geliştirmelerinden ziyade sadece kod satırları aracılığıyla mümkün hale gelmesidir. DeepSeek’in FlashMLA’sı, kolay anlaşılır terimlerle, veri yığınlarını daha küçük parçalara ayıran “düşük dereceli anahtar-değer sıkıştırması” uyguluyor ve bu da daha hızlı işlemeye ve %40-%60’a kadar azaltılmış bellek tüketimine olanak tanıyor. Bir diğer ilginç ekleme ise, tek bir sabit değer yerine görevin yoğunluğuna bağlı olarak belleği dinamik olarak tahsis eden blok tabanlı sayfalama sisteminin kullanılması. Bu, modellerin değişken uzunluklu dizileri çok daha etkili bir şekilde işlemesine yardımcı olarak performansı nihayetinde artırıyor.
DeepSeek’in geliştirmesi, yapay zeka hesaplama dünyasının tek bir faktöre bağımlı olmadığını, aksine çok daha çeşitli olduğunu gösteriyor ve bu FlashMLA ile açıkça ortada. Şimdilik, aracın yalnızca Hopper GPU’lara özgü olduğu görülüyor ve FlashMLA aracılığıyla H100 ile ne tür bir performans elde edebileceğimizi görmek ilginç olacak.