Ne hafta oldu ama… Sahiden, ne hafta. Ülke olarak gündemde soruşturmalar, gözaltılar, ifadelerle dolu bir haftayı geçirirken, “biz ne ile uğraşıyoruz el alem ne ile” dercesine dünya da bu haftayı Çin merkezli DeepSeek-R1 büyük dil modeli ve onun başta Amerika’daki büyük teknoloji şirketleri ve borsasına olan etkisiyle geçirdi.
Olan bitenle ilgili pek çok içerik çekildi ya da yayınlandı, o yüzden bu yazı belki biraz geç kalsa da en azından derli toplu tüm süreci özetlemesi anlamında yine faydalı olacaktır diye umut ediyorum.
Çinli milyarder iş insanı Liang Wenfeng tarafından Mayıs 2023’te kurulan DeepSeek, ki bu konuda çok büyük basın kurumları bile Aralık 2023 olduğunu yazmış, fakat Mayıs 2023, Kasım 2023’te ilk modeli olan ve bir tür kodlama asistanı olan açık kaynaklı DeepSeek Code’ı piyasa sürdü. Ancak şirketi Ocak 2025’te bu kadar popüler yapan şey ise 20 Ocak günü duyurdukları DeepSeek-R1 isimli yine açık kaynak olan dil modeli oldu.
Şirketin daha önce paylaşmış olduğu DeepSeek-V3 isimli dil modelinin “muhakeme” (reasoning) yeteneğine sahip ilk ve en güncel versiyonu olan DeepSeek-R1’den teknik olarak bahsedersek eğer, ilk karşımıza çıkan noktanın modelin takviye öğrenme (reinforcement learning) kullanılarak eğitilmesi olduğunu görüyoruz. Bu sayede modelin hatalarını düzeltebilme ve optimal sonuçlar üretme yeteneğini geliştirmek amaçlanıyor. Ayrıca yine takviye öğrenim sayesinde modelin otomatik mantık yürütme ve detaylı çıkarım zincirleri oluşturma gibi özellikleri, matematiksel ve mantıksal problemlerde daha yüksek doğruluk sağlıyor.
Bir başka dikkat çeken nokta ise modelin görevler sırasında tüm parametrelerini kullanmaya gerek duymaması. Mixture of Experts (MoE) mimarisiyle 671 milyar parametreye sahip olmasına rağmen, her işlemde yalnızca 37 milyar parametre aktifleşerek donanım maliyetini ve kaynak tüketimini önemli ölçüde azaltıyor. Keza yine genellikle zaman alan ve yetenek kaybına yol açan distilasyon işlemi; büyük ve başarılı modelden küçük modele bilgi ve beceri aktarımı; bu modelde hızlı ve verimli bir şekilde gerçekleşiyor ki böylece kısıtlı şartlarda optimum sonuç alınması hedefleniyor.
Ancak bu teknik farklılıklar sadece ufak bir nüans olarak sunuluyor model tarafından. DeepSeek-R1 performans olarak diğer modellerden, örneğin OpenAI’ın o1 modeli gibi, daha akıllı değil. Keza üretken yapay zekâ ekosistemine de yeni bir şey sunmadı teknik açıdan aslında. Tüm dil modelleri gibi halüsinasyon (yalan bilgi söyleme) problemini de yaşıyor. Ancak maliyetleri… Asıl dalgayı yaratan şey bu oldu.
Daha önceki yazılarda da belirttiğim gibi bu kadar başarılı ve kapsamlı modellerin eğitimi için çok güçlü hesaplama çipleri kullanmak gerekiyor ve bugün neredeyse bu çip marketinin %80’i ABD merkezli NVDIA tarafından domine edilmiş durumda. Tabii bu mecburiyet de şirketin değerine değer katıyor.
Belki de tüm dünyayı büyük dil modelleriyle tanıştıran şirket olan OpenAI da haliyle NVDIA’nın en güncel çiplerinin sıkı bir kullanıcısı, her ne kadar şikâyet etseler de. Dolayısıyla şu an aylık 20 dolar karşılığında kullanıma sunduğu o1 modelinin eğitimine dair fazla teknik detay verilmese de NVDIA’nın en güncel ve güçlü çipleri olan Blackwell’in kullanıldığı düşünülüyor. Blackwell’in duyurulmasına kadar ise bilinen en güçlü NVDIA çip modeli ise H200’dü, onun öncesinde ise H100. Modelin maliyetine dair yine bir bilgi vermek güç ancak Meta’nın dil modeli olan Llama 3.1’in eğitimi için yüzlerce milyon dolardan bahsedildiği bir ortamda OpenAI modelleri için de benzer bir ücret tahmini yapmak gerekiyor.
Mart 2023 tarihinde ABD’nin Çin’e yönelik yaptırımları dolayısıyla NVDIA, Çin’e o dönem en güçlü çipleri olan H100 yerine daha yavaş dolayısıyla daha kötü bir versiyonu olan H800’ü ihraç edeceklerini duyurmuştu. İşte DeepSeek’in iddia ettiği fark ya da yenilik tam olarak burada ortaya çıkıyor.
DeepSeek, OpenAI’ın yüzlerce milyon dolar harcayıp, belki daha fazla, son model çipleri kullanarak elde ettiği modelin başarı olarak oldukça benzerini yaklaşık 6 milyon dolara mâl ettiğini ve bunu da NVDIA’nın H800 çiplerini kullanarak elde ettiğini iddia ediyor. Şirket sadece bununla da kalmadı, bu modeli açık kaynaklı olarak ücretsiz kullanıma açtığını duyurdu. Üstelik bu model, şirketin “yan projesi”ydi. Yani şirket daha güçlü bir model için uğraşıyor ve uğraşmaya da devam ediyor.
Bu düşük maliyet ve ücretsiz kullanım, geçtiğimiz hafta içinde DeepSeek’i en çok indirilen uygulama haline getirmekle kalmadı ve NVDIA başta olmak üzere muhteşem 7’li diye adlandırılan şirketlerle, aynı zamanda enerji ve veri merkezi şirketlerinin borsadaki hisselerine darbe vurdu.
Çünkü DeepSeek’in düşük maliyet ve görece olarak düşük kaliteli çip iddiası doğruysa bu büyük dil modellerine yönelik yaygın kanılar olan yüksek maliyet ve güçlü çip ikilisinin de sarsılması anlamına gelecek. Burada iddia kelimesini kullanmamın sebebi ise modele dair özellikle Batı’da yayın olan şeffaflık kaygısı çünkü başta Elon Musk olmak üzere pek çok kişi modelin aslında daha fazla bir maliyetle eğitildiği ve H800 yerine H100 çipleri kullanıldığını iddia ediyor, ancak şu an elimizde olan en “güvenilir” bilgi şirketin paylaştığı düşük maliyet ve H800 çipleri.
Modelin eğitimi için kullanılan verinin yanlılığı da modele dair başka bir muamma. Çin’in politik yapısının getirmiş olduğu “sansür” ve “kapalılık” hâlinin, modele de sirayet ettiği düşünülüyor ve buna örnek olarak da modelin 1989 Tiananmen Meydanı’nda Çin hükümeti aleyhinde gerçekleştirilen protestolara yönelik cevap vermemesi olarak gösteriliyor. Bu kaygı doğru olmakla birlikte sadece bu modelin böyle bir “sansür” uyguladığını düşünmek biraz masumane bir düşünce de olabilir.
Modele dair tek şüphe elbette bunlarla sınırlı değil. Veri güvenliği ve etik kaygılar da DeepSeek modeline dair üst seviyede. Tayvan, güvenlik endişelerini gerekçe göstererek devlet dairelerinin DeepSeek kullanmaması gerektiğini söylerken, Avusturalya da keza bu konuda şüpheci baktığını ifade eden ülkelerden. Güvenlik ve etik kaygılara dair ilk hamleyi ise yapan ülke İtalya oldu ve güvenlik gerekçelerinden dolayı DeepSeek kullanımını yasakladı.
DeepSeek’in ise bu endişeye yönelik cevabı ise pek tatmin edici değil doğrusu. Şirket kullanıcılardan toplanan büyük miktarda kişisel bilgi toplanıyor ve bu bilgiler daha sonra Çin'deki "güvenli sunucularda" saklandığını söylüyor.
“İyi tarafından bakarsak eğer TC kimlik numarasından okul notuna, tahlil sonuçlarından cep numarasına kadar tüm bilgileri zaten afişe olmuş bizler için bu kaygıları düşünmek yersiz olabilir.(!)”
Peki bundan sonra ne olacak?
Bundan sonrasının yıllar öncesi soğuk savaş döneminin modern bir versiyonu olması mümkün. ABD başkanı Donald Trump göreve gelir gelmez üç büyük şirketin CEO’sunu yanına alarak Stargate isminde 500 milyar dolar bütçeli "tarihin en büyük yapay zeka altyapı projesi”ni duyurmuşu. DeepSeek sonrası ise Trump bu gelişmenin bunun ABD merkezli teknoloji şirketleri için bir uyandırma çağrısı olması gerektiğini söyledi.
Tüm bu gelişmeleri, ABD’nin yapay zekâ alanında daha hızlı ve daha agresif olacağının emaresi olarak yorumlamak mümkün. Buna karşı Çin’in de özellikle “elinin armut” toplamayacağı görünüyor. Keza DeepSeek’in hemen arkasından Çin’den Alibaba’da Qwen 2.5-Max isimli yine oldukça başarılı bir modelini tanıttı ki bunu da Çin’in de durmayacağının bir göstergesi olarak algılamak mümkün. Kısacası artık modellerin, dolayısıyla şirketlerin ve yine ülkelerin hem kendi içinde hem kendi arasında daha “agresif” bir şekilde savaşacağı bir dönemin içine girmiş olabiliriz.
Şirketler arası mücadelenin uluslar seviyesine taşındığı bugünlerde biz ne yapıyoruz diye soracak olursak eğer ilk paragraf yeterince açıklayıcı oluyor. Koca bir hiç.
Referanslar
Nellis, S., & Lee, J. (2023, March 22). Nvidia tweaks flagship H100 chip for export to China as H800. Reuters. https://www.reuters.com/technology/nvidia-tweaks-flagship-h100-chip-export-china-h800-2023-03-21/
ARXIV Dive: How Meta Trained Llama 3.1 | Oxen.ai. (n.d.). https://www.oxen.ai/blog/llama-3-1-herd-of-models
Gooding, M. (2023, October 11). Will OpenAI really build its own chips? - Tech Monitor. Tech Monitor. https://www.techmonitor.ai/digital-economy/ai-and-automation/will-openai-really-build-its-own-chips?cf-view
Ozancan Özdemir kimdir?
Ozancan Özdemir, lisans ve yüksek lisans derecelerini ODTÜ İstatistik Bölümü'nden aldı. Yüksek lisans döneminde aynı zamanda Anadolu Üniversitesi yerel yönetimler bölümünden mezun oldu.
Bir süre ODTÜ İstatistik Bölümü'nde araştırma görevlisi olarak çalışan Özdemir, şu günlerde Groningen Üniversitesi Bernoulli Enstitüsü'nde finans ve yapay zekâ alanındaki doktora çalışmalarını sürdürüyor.
Pandemi döneminde bir grup öğrenciyle birlikte gönüllü bir oluşum olan VeriPie adlı güncel veri gazetesini kurdu.
Araştırma alanları yapay öğrenme ve derin öğrenme uygulamaları, zaman serisi analizi ve veri görselleştirme olan Ozancan Özdemir, ayrıca yerel yönetimler ve veriye dayalı politika geliştirme konularında da çeşitli platformlarda yazılar yazmaktadır.
|