08 Nisan 2024

Dünyanın yeni “Büyük İskender”i: Yapay Zekâ

Teknoloji şirketleri kullanacakları verileri lisanslamakla uğraşmıyorlar çünkü o kadar büyük bir veritabanına ihtiyaç duyuyorlar ki hem paraları hem de zamanları buna yetmiyor. Bu yüzden telif hakkı ihlali yapmayı göze alıyorlar. Fakat tüm bunlara rağmen eldeki veri yine de yeterli değil ve ne yapıp da bu veritabanını daha da genişleteceklerini bulmaya çalışıyorlar...

Yapay Zekâ (YZ) etrafında dönen tartışmalar bir süredir hepimizin ilgisini çekiyor. Nasıl çekmesin ki?

YZ gerçekten insanlığın sonunu mu getirecek? İnsandan daha akıllı ve kendisinin farkında bir YZ’ye yakın zamanda ulaşabilecek miyiz? YZ tarihteki en büyük icat olabilir mi? Bunlar insanın hayal sınırlarını zorlayan ve bu nedenle de hepimize “çekici” gelen sorular.

Bir de YZ’ye ilişkin bazı sınırlar var. Mesela YZ’ların kullandığı işlemcilerin hacmi, hızı, elektrik tüketimi…  

TIKLAYIN | 3 Cisim Problemi ve değişimin baş döndürücü hızı: Ya yeni başlıyorsak?

Şimdi de başka bir YZ problemiyle karşı karşıyayız: Bu YZ algoritmalarını nasıl doyuracağız?

Birinci çoğul şahısla yazmama bakmayın, biz derken YZ geliştiricilerini ama en genel ölçekte insanlığı kastediyorum. Doyurmaktan kastım ise YZ algoritmalarına işleyecek veri sağlamak.

Kafanız karışmasın. Veri dediğimiz şey aslında özünde metin, fotoğraf, video. Her türden içerik yani… Algoritmalar bu içerikleri alıyor, işliyor ve bu sayede öğreniyor. Videoyu ise metne çeviriyor. Hem cümlenin içinde yer alan bilgiyi haznesine alıyor. Hem de cümle kalıplarını, öznenin yüklemin vs… hangi durumlarda nerelerde yer alacağını hafızasına kaydediyor.

Fakat YZ’ları eğitmek için ihtiyaç duyulan veri o kadar büyük ki mesela internetin hayatımıza girmesinden bu yana insanlığın ürettiği tüm içeriklerin bir noktada tükeneceği söyleniyor. “Token” denilen ve her biri bir kelimeye denk gelen veri setlerinin büyüklüğü inanılmaz… Örneğin ChatGPT için 3,5 trilyondan fazla “token”ın işlendiği biliniyor.

Peki, geliştirici şirketler bu veriyi nasıl buluyor? Bu veritabanına nasıl ulaşıyor? İşte dananın kuyruğu tam da bu noktada kopuyor. İddia o ki, bunu telif hakkı filan umursamadan açık kaynakların tümünü izinsizce kopyalayarak yapıyorlar.

Güncel bir örnekle ilerleyeyim: Mesela NY Times gazetesinin internet sitesinde yer alan tüm arşivi (gazete 172 yıllık tarihini dijital ortama aktarmış durumda) izinsiz alıp kendi veri havuzuna atıyor.

Tabii, böyle bir durumda bir veri hakları ihlali söz konusu oluyor. Öyle ya, siz benim verimi kullanıp bir ürün geliştiriyorsunuz. Geliştirdiğiniz ürün üzerinden kâr elde ediyorsunuz. Ve ben bu işten hiçbir şey kazanmadığım gibi benden bunun için izin bile almıyorsunuz.

Nitekim NY Times tam da bu nedenle yakın zamanda OpenAI ve Microsoft’u dava etti. Gazete, YZ’larını eğitirken kendi arşivlerinin izinsiz kullanıldığını söylüyor. Ayrıca hukuki bir süreç başlattığı için YZ meselesini de yakından takip ediyor.

İşte, bu yazıyı yazmama da vesile olan ve YZ’ların eğitimi için izinsiz kullanımları mercek altına alan makale NY Times’ta yayımlandı.

Kitabın ortasından söylemek gerekirse makaleden şunu anlıyoruz: Teknoloji şirketleri kullanacakları verileri lisanslamakla uğraşmıyorlar çünkü o kadar büyük bir veritabanına ihtiyaç duyuyorlar ki hem paraları hem de zamanları buna yetmiyor. Bu yüzden telif hakkı ihlali yapmayı göze alıyorlar. Fakat tüm bunlara rağmen eldeki veri yine de yeterli değil ve ne yapıp da bu veritabanını daha da genişleteceklerini bulmaya çalışıyorlar.

Mesela siz Youtube’a bir video yüklüyorsunuz. OpenAI bunu Whisper adını verdiği bir yazılımla metne çeviriyor ve o metni veritabanına ekliyor. OpenAI’ın Youtube’dan bir milyon saatten fazla videoyu bu yöntemle veritabanına kattığı söyleniyor. Oysa ki, Youtube bildiğiniz gibi Google’ın ve Google ile OpenAI aslında rakip.

Google, OpenAI’ın bunu yaptığının farkında olmasına rağmen hukuki bir süreç başlatmıyor çünkü kendisi de aynı şeyi yapıyor. Tek farkla: Google bir noktada uygulamalarını yüklerken rıza gösterdiğimiz o uzun ve hiçbirimizin okumadığı “Şartlar ve Koşullar” maddelerinde bir değişiklik yaptı. Bu sayede biz Google uygulamalarına yüklediğimiz verilerin (buna mesela bir restoran hakkında Google Maps’e girdiğimiz yorumlar bile dahil) kendi YZ eğitimleri için kullanılmasına izin vermiş olduk. (Bu değişiklik için ABD’de özellikle uzun bir tatilin başlangıcını seçmişler ki, insanlar tatil havasında fazla detaya takılmadan onaylasın, geçsin.)

Kendisi şartlarını gerektiği şekilde değiştirmesine karşın Google yine de OpenAI’ın izinsiz Youtube kullanımının üstüne gitmiyor. Çünkü bu konunun gündeme gelmesi Google’ın da “çaktırmadan” bizden aldığı iznin tartışılmasına yol açabilir ve tabii ki bunu istemiyorlar.

Benzer bir sorun Meta’da, yani Facebook ve Instagram’da da var. Onlar da veritabanlarını genişletemiyorlar ve hatta Zuckerberg’in YZ yarışında geride kalmasına veritabanı sorununun yol açtığı söyleniyor.

Mesele öyle bir noktaya gelmiş durumda ki, Meta’da bir ara dünyanın en büyük yayınevlerinden Simon&Schuster’in satın alınması bile tartışılmış. Yani bir asırlık yayınevini satın alacaklar, yayınevinin kataloğundaki tüm kitapları dijitale çevirecekler ve kendi veritabanlarına ekleyecekler.

Sesli kitaplar, podcast’ler, tüm video içerikler, web siteleri, filmler, tiyatro metinleri, basılı kitaplar, yorumlar… YZ geliştiricileri insanlığın tarihi boyunca ürettiği her şeyi bir noktada veritabanlarına eklemek istiyorlar. Çünkü YZ ancak bu veritabanı genişledikçe daha doğru sonuçlar üretebiliyor.

Fakat işte karşılarında bir lisanslama sorunu var. Şimdiye kadar yasalardan doğan boşluklardan faydalanarak bir şekilde bu noktaya kadar gelindi. Fakat NY Times’ın açtığı türden davalardan alınacak sonuçlar örnek teşkil ederse açılacak davaların sonu gelmeyebilir.

Böyle bir durum da hem o şirketleri maddi olarak batırabilir, hem de bundan sonra kullanılacak veritabanlarında genişlemenin aksine küçülmeye gitmek zorunda bırakabilir.

OpenAI bu yüzden bir başka yöntemi devreye sokmaya çalışıyor: Sentetik veri üretmek. Ne demek sentetik? Bir YZ’nin ihtiyaç duyduğu veriyi bir başka YZ’nin üretmesi demek. Yani aslında YZ’leri başka YZ’lerin eğitmesi demek.

Bu noktada işler yine karışıyor ve hayal gücümüzün sınırları zorlanmaya başlıyor. Ama yine basitçe ifade etmeye çalışalım; burada ikili bir yapı üzerine çalışıyorlar. Bir YZ modeli bir metni üretecek, bir diğer model ise üretilen metnin uygunluğunu, doğruluğunu denetleyecek. İkinci modelden geçer puan alırsa o metin veritabanına işlenecek.

Tabii, insanın aklına doğal olarak şöyle bir soru geliyor: E, o metni üreten YZ bilgileri nereden alıyor? Onu kim, hangi veritabanıyla eğitti? Bu çok haklı bir soru. Olmayan bilgiyi işleyecek hali yok. Dolayısıyla günün sonunda yine insan tarafından üretilmiş bir içeriğe ihtiyaç var.

Yani aslında bu yöntem de YZ geliştiricilerinin telif haklarını ihlalden kaçınmasına yardımcı olmuyor. Kim bilir, belki de YZ geliştiricileri sahiden dünyanın bütün kitaplarının telif haklarını satın alıp gelmiş geçmiş en büyük kütüphaneyi dijital ortamda kuracaklar. Onlar YZ’lerini geliştirecek, biz ise ihtiyaç duyduğumuz her yayına tıpkı Spotify’dan müziğe ulaştığımız gibi ulaşır hale geleceğiz.

Dünyanın tüm kitaplarını bir araya getirmek deyince Büyük İskender geldi aklıma… Mısır’ı fetheden o genç komutan Nil’in suladığı verimli deltada kendi isminde bir kenti inşa ederken bir de kütüphane eklemeyi uygun görmüştü. Dünyanın her yerinden kitapları bir araya getirmek istemiş, dört bir yana askerlerini gönderip yeni topraklar kadar bilgiyi de fethetmenin hayalini kurmuştu.

Bilim insanları bugün bu bilgiden bile emin olamadığımızı, İskenderiye Kütüphanesi’ni belki de ondan sonra gelen 1. Ptolemaios ve veliahdının kurup genişlettiğini söylüyor. Öğrenmeye devam ettikçe geçmiş de yeniden şekilleniyor, gelecek de…

Büyük İskender veya halefi… Bundan 2300 yıl önce de bilginin en değerli hazine olduğunu idrak eden birileri vardı. O birileri, dünyanın tüm bilgisini bir kütüphaneye sığdırmak, oradan kendi filozoflarını, kendi bilim insanlarını yetiştirmeyi arzuluyordu.

Bugün İskender’in dünyayı fethetmeye yeltendiği yaştaki çocuklar dünyanın tüm bilgisini bir bilgisayar programına öğretmenin yolunu arıyorlar. Bugünün İskenderiye Kütüphanesi’ni bir yazılımın kodları arasına yerleştirmeye çalışıyorlar.

Belli ki, tıpkı İskender gibi onların da hırsları büyük, gözleri kara… Hak, hukuk, ne varsa sınırlarına kadar zorlayıp kendi fetihlerine diğerlerinden önce ulaşmaya çalışıyorlar.

Ümit edelim ki, İskenderiye Kütüphanesi’nin sonunun da fetih hırslarıyla geldiğini hatırlarında tutuyor olsunlar.

Eray Özer kimdir?

Eray Özer ODTÜ'de psikoloji okudu, sosyoloji hatmetti. Akabinde Bilgi Üniversitesi'nde yüksek lisans, Anadolu Üniversitesi'nde ise tez aşamasına takılan bir doktora ile akademik hayattan bir türlü elini eteğini çekemedi. Hatta iki yıl boyunca Kadir Has Üniversitesi'nde sosyoloji dersleri verdi.

Meslek hayatına Radikal Gazetesi'nde başladı, kısa süreli televizyon haberciliği deneyiminin ardından Doğuş Dergi Grubu'nda devam etti.

Son olarak ise Cumhuriyet hafta sonu eki Sokak'ı çıkaran ekipte yer aldı. Radikal, Birgün, Cumhuriyet ve Diken'de yazdı.

Yaklaşık dört sezondur devam eden bir podcast içeriği hazırlıyor. Buzdolabının tarihinden Yapay Zekâ'ya, Roman halkının hikâyesinden Kayıp Kıta Mu'ya birbirinden farklı konular hakkında hiç bilinmeyenlerin anlatıldığı "Yeni Haller" ismindeki podcast yayınına Spotify'dan veya tüm podcast uygulamalarından ulaşabilirsiniz.

 

Yazarın Diğer Yazıları

Öğrenciler Gazze’nin yanında, “demokrat” medya ise nerede duracağını şaşırmış durumda…

ABD’de öğrenciler ayakta… İsrail protestoları kampüsten kampüse yayılıyor, polis eylemlere sert müdahale ediyor. Demokratları destekleyen medya seçime gidilirken Biden’ın elini zayıflatmaktan korkuyor. Özgürlüklerden yana tavır alması gerekenler eylemleri elden geldiğince büyütmeden haberleştirmeye çalışıyor. Acıklı bir hal bu…

Silah varsa kanun yok: Namlunun ucundayız!

15 Temmuz darbe girişimi sonrası bireysel silahlanma rakamlarında yaşanan artışa dikkat çekiliyor. Muhalefet bireysel silahlanma konusunda bir tür “göz yumma” olduğuna vurgu yapıyor

Bilim insanları uyarıyor: “İşimiz Allah’a kaldı” dönemi başlamış olabilir

Ben size lafı daha fazla dolandırmadan -gazetecilik tabiriyle- “manşeti” vereyim: Sıcaklıktaki yükseliş öyle bir hal almış durumda ki, bilim son bir yılda yaşanan değişimi açıklamakta zorlanıyor. Konunun uzmanları “meçhul bir alana” girmiş olabileceğimizi söylüyor