02 Mart 2025

Yapay zekâ kalite testleri gerçekten kusursuz mu?

Kim ki size bir dil modeli için şöyle uçuyor, böyle kaçıyor, acccayip ve süper gibi ifadelerde bulunuyorsa kulak ardı etmek faydalı olabilir. Çünkü modellerin süreçleri, başta eğitim verileri, şeffaf bir şekilde kamu ile paylaşılmadıkça modellerin gerçekten uçup kaçtığını bilmemiz mümkün olmayacak

Geçtiğimiz aya damga vuran DeepSeek’in üzerinden bir ay geçti, ancak bu süreç içinde büyük dil modelleri ailesi büyümeye devam etti. En çok konuşulan yeni üyeler ise önce Elon Musk’un Grok’u, sonra Antropic’in Claude 3.7’si ve son olarak da OpenAI’ın ChatGPT 4.5’i oldu. Daha önceki yazılarda da belirttiğim gibi, artık dil modelleri bir yarış parkuru ve yarışmacılar, ki burada genellikle şirketler ya kendilerinin bir önceki modelinden ya da o an için en popüler olan modelden daha iyi bir model üretmek için çabalıyor. Peki bir modelin başka bir modelden iyi olması sonucuna nasıl varılır?

Cevabı zor bir soru değil bu elbette. Büyük Dil Modellerinin performans kıyaslamasını yapmak için Türkçesi kalite testi olarak ifade edilen ancak hem teknik hem de günlük dilde daha çok benchmark diye adlandırdığımız standartlaştırılmış test ve değerlendirme sistemleri kullanılır Bu sistemler, modellerin anlama, akıl yürütme, yaratıcılık, çok dillilik ve özel alan bilgisi gibi çeşitli yeteneklerini karşılaştırmalı olarak değerlendirerek geliştiricilere ve kullanıcılara rehberlik eder ve benchmarklarda yüksek skoru elde eden modeller, düşük skorlu modellere göre daha iyi kabul edilr.

Ancak benchmark sonuçlarına dair yapılan yorumlar “maalesef” bu masumiyette kalmıyor. Biraz etkileşim, biraz yüzeysel bilgi sahibi olmak ya da adlandıramadığım başka nedenler, bu sonuçlara dair “abartı” yorumların yapılmasına neden oluyor. Nasıl mı?

- İnsan zekâsından üstte bir model.

- Yaptığı şeyler mucizevi.

- Uçuyor, kaçıyor.

- 4 SENE SONRA YAPAY ZEKÂ BAŞKA BİR BOYUTA GEÇECEK. (Ünlü finans profesörümüzü tekrar analım. Kendisi geçtiğimiz günlerde bir robot ev yardımcı videosu paylaşarak dillere pelesenk “Bak ben demiştim” minvali paylaşımlarına bir yenisini eklemişti.)

İşte asıl sorulması gereken sorunun yeri geldi. Peki bu benchmarklar gerçekten bu kadar abartı ve yüksek perdeden yorum yapılmasını sağlayacak kadar güvenli mi ve kaliteli mi?

Üzgünüm, ama değil. Peki neden değil?

Benchmarklara dair en temel sorun veri sızıntısıdır. Bu ne demek?

Dil modellerinin eğitimi için büyük boyutlarda metin verilerine ihtiyaç duyulur. Eğer bu veri setleri içinde, modellerin performansını ölçmek için kullanılan benchmark test verileri ya da benzer örüntüye sahip yer alırsa bu durum veri sızıntısı olarak adlandırılır. Bu sızıntı sonucunda da model hali hazırda bu bilgiyi öğrendiği için bu veriye sahip olmadan eğitilmiş bir modele göre daha iyi bir sonuç verir ki bu da, modelin gerçek dünya uygulamalarında beklenen performansı göstermemesine yol açar.

Veri sızıntısı aynı zamanda modellerin adil bir ortamda kıyaslama yapılmasını da engellemiş olur ki küçük boyutlu modellerin dahi sızdırılmış verilerle eğitildiğinde, çok daha büyük ve aslında daha güçlü olan modellere yakın veya daha yüksek performans sergilemesi mümkündür. Bu da değerlendirme sonuçlarına bakarak “Model çok başarılı!” diye düşünülmesine neden olur; oysa gerçekte bu başarı, modelin test verilerini önceden görmesinden kaynaklanan bir hileden ibarettir.

Benchmarkların bir diğer kritik sorunu, modelin genel yeteneklerinin değerlendirilmesinde ortaya çıkıyor. Eğer model, benchmark verilerinin belirli formatına veya test istemlerine aşırı uyum sağlarsa, diğer alanlarda gerçek genelleme yapma yeteneği zayıflıyor ki bu durumun kendine has bir tabiri bile var; “Catastrophic forgetting” (felaket unutması). Bu da modelin sadece benchmarklarda değil, gerçek dünya uygulamalarında da başarısız olmasına neden oluyor.

Benchmarklar, sıklıkla sabit test istemleri ve formatlar kullanır. Eğer model bu sabit istemleri önceden öğrenmişse, testte çok başarılı görünür; ancak ufak bir istem değişikliği veya farklı bir formatta performansı keskin biçimde düşebilir. Bu, “modelin gerçekten anlama ve uyum sağlama yeteneği mi var, yoksa sadece test istemlerini ezberledi mi?” sorusunu gündeme getirir ki dolayısıyla, tek bir format veya istem üzerinden alınan yüksek puan, modelin evrensel bir beceri sergilediği anlamına gelmez.

Yine sızıntılı verilerle eğitilen bir model, ileride başka görevlere veya veri türlerine uyarlanmak (fine-tuning) istendiğinde beklenenden daha zayıf sonuç verebilir. Çünkü model, benchmark verisine fazla özel bir şekilde uyum sağlamıştır. Bu, yeni görevlerde veya farklı veri kaynaklarında gösterilecek performansı düşürür. Yani benchmark skorlarının yüksek olması, modelin her alanda kolayca adapte olabileceği anlamına gelmez; aksine, bazen modelin esnekliğini bile azaltabilir.

Tüm bu sorunlar bir araya geldiğinde, benchmark sonuçlarının her zaman modelin “gerçek” performansını yansıtmadığını söylemek mümkün çünkü veri sızıntısı ve sabit test formatları gibi etkenler, yapay olarak yüksek skorların üretilmesine yol açar. Dolayısıyla, “benchmark’ta yüksek puan aldı” demek, tek başına bir modelin güvenilir ve her alanda üstün olduğunu kanıtlamaz, maalesef.

Bu yazıyı okuduktan sonra eğer bu paragrafa gelmişseniz aklınızda şu sorunun oluşması muhtemel. Eğer bir model, benchmark verilerini içeren bir veri ile eğitilmemişse, yani bir veri sızıntısı yoksa endişe edecek bir şey de yok demektir, değil mi? Ne yazık ki buna dair bir şey söylemek mümkün değil, çünkü modellerin, özellikle popüler modellerin eğitiminde hangi verilerin kullanıldığını bilmiyoruz ki bu da biz kullanıcılara açıklanan sonuçlara dair hep şüpheyle bakmamız gerektiğini hatırlatıyor. Ancak şunu söylemek mümkün, kim ki size bir dil modeli için şöyle uçuyor, böyle kaçıyor, acccayip ve süper gibi ifadelerde bulunuyorsa kulak ardı etmek faydalı olabilir. Çünkü modellerin süreçleri, başta eğitim verileri, şeffaf bir şekilde kamu ile paylaşılmadıkça modellerin gerçekten uçup kaçtığını bilmemiz mümkün olmayacak.


Referanslar

Zhou, K., Zhu, Y., Chen, Z., Chen, W., Zhao, W. X., Chen, X., Lin, Y., Wen, J., & Han, J. (2023, November 3). Don’t make your LLM an evaluation benchmark cheater. arXiv.org. https://arxiv.org/abs/2311.01964

Ozancan Özdemir kimdir?

Ozancan Özdemir, lisans ve yüksek lisans derecelerini ODTÜ İstatistik Bölümü'nden aldı. Yüksek lisans döneminde aynı zamanda Anadolu Üniversitesi yerel yönetimler bölümünden mezun oldu.

Bir süre ODTÜ İstatistik Bölümü'nde araştırma görevlisi olarak çalışan Özdemir, şu günlerde Groningen Üniversitesi Bernoulli Enstitüsü'nde finans ve yapay zekâ alanındaki doktora çalışmalarını sürdürüyor.

Pandemi döneminde bir grup öğrenciyle birlikte gönüllü bir oluşum olan VeriPie adlı güncel veri gazetesini kurdu.

Araştırma alanları yapay öğrenme ve derin öğrenme uygulamaları, zaman serisi analizi ve veri görselleştirme olan Ozancan Özdemir, ayrıca yerel yönetimler ve veriye dayalı politika geliştirme konularında da çeşitli platformlarda yazılar yazmaktadır.

Yazarın Diğer Yazıları

Yapay zekâ ne kadar tehlikeli olabilir?

Yapay zekânın ışıltılı dünyası bu teknolojik gelişmenin hep olumlu taraflarının belki de zaman zaman gereksiz parlatılmasına yol açsa da sahip olduğu risk potansiyeli asla ama asla yabana atılmamalı

Gerçek hayat ve okul matematiği: Çocukların iki dünyası arasında kesişmeyen bir köprü

Gerçek yaşam deneyimleri ile okul ortamı arasındaki farkları anlamak, eğitim politikalarının ve müfredatların çocukların tüm potansiyellerini ortaya çıkarmaya yönelik yeniden yapılandırılmasında kritik bir rol oynayabilir

Dil modellerinin çözülmesi zor sorunu: Yalancılık

Büyük dil modelleri özelinde halüsinasyon, girdi olarak yazdığınız gönderinizle alakasız, uydurma ya da tutarsız içerik üretimi olarak tanımlanabilir. Peki modeller neden yalan söyler? 

"
"