ChatGPT ya da başka bir dil modelini kullanırken prompt adı verilen yazdığınız metnin üslubu nasıl?
“Yap şunu!” gibi emir kipi mi kullanıyorsunuz, yoksa “Lütfen yapar mısın?” gibi kibar bir iletişimi kuruyorsunuz?
Peki size yazdığınız promptun üslubu, modelden elde ettiğiniz sonuçları etkiliyor desem?
Japonya’dan bir grup araştırmacı nezaketin dil modellerinin performansı üzerindeki etkisini araştırmış ve oldukça ilginç bulgulara ulaşmış. Çalışmada araştırmacılar, İngilizce, Çince ve Japonca dillerinin, farklı kültürel bağlamdaki inceliklerini büyük dil modellerinin çıktıları üzerindeki etkilerini mercek altına almış.
Dil modellerinin insan etkileşimlerinde nezaket düzeyine nasıl tepki verdiğini anlamaya yönelik bu çalışma, sosyal hayatta insanların nazik bir üslupla iletişim kurmasının olumlu sonuçlar doğurduğu gerçeğinden yola çıkıyor. Bu bağlamda araştırmacılar, dil modellerine nazik ya da kaba ifadelerle sorular yönelterek, yapay zekânın bu tarz sosyal etkileşimlere nasıl yanıt verdiğini incelemişler. Araştırmanın sonuçları ise oldukça dikkat çekici: Modeller, nazik ifadelerle karşılaştığında daha olumlu sonuçlar üretiyor gibi görünse de, aşırı kibarlık her zaman daha iyi sonuç vermiyor. Aynı şekilde, kaba bir dil kullanıldığında model performansı belirgin şekilde düşüyor.
Çalışmada, dil modellerine sekiz farklı nezaket seviyesinde sorular yöneltilmiş. Örneğin, bir soru "Lütfen bana bu metni özetler misin?" şeklinde nazik bir dille sorulurken, aynı soru daha kaba bir üslupla "Bu metni özetle" olarak da yöneltilmiş. Araştırmacılar, her iki dil tarzıyla verilen yanıtların performanslarını ROUGE-L ve BERTScore gibi modelin verdiği yanıtların doğru ve anlamlı olup olmadığını ölçmeye yarayan metin karşılaştırma araçları yardımıyla değerlendirmişler elde edilen sonuçlar, nazik ve orta düzeyde yapılan isteklere verilen cevapların, kaba sorulara göre daha doğru ve anlamlı olduğunu gösteriyor.
Figür 1. Elde Edilen Sonuçların Dillere Göre Kıyaslanması (Yin vd., 2024)
Çalışmanın bir diğer önemli bulgusu ise dilin ve kültürel bağlamın dil modelleri üzerindeki etkisini gözler önüne sermesi. Japonca gibi nazikliğin kültürel olarak çok önemli olduğu dillerde, dil modelleri nazik sorulara daha yüksek performansla yanıt veriyor. Ancak aşırı kibarlık bu performansı olumsuz etkileyebiliyor. Çince ve İngilizcede ise daha dengeli bir tepki görülse de, Japoncadaki gibi belirgin bir fark var. Bu durum, dil modellerinin yalnızca dilin kurallarını öğrenmekle kalmayıp, aynı zamanda sosyal ve kültürel normlara da tepki verdiğini gösteriyor olabilir.
Bu çalışmada kullanılan istatistiksel analizler de oldukça dikkat çekici. Sonuçların güvenilirliğini sağlamak için ROC eğrisi gibi doğrulama yöntemleri kullanılmış. ROC eğrisi, dil modellerinin doğru ve yanlış cevaplar arasındaki ayrımı ne kadar iyi yaptığını gösteren bir yöntemdir. Araştırmacılar bu analizler sayesinde, dil ve kültür farklarına göre dil modellerinin nezakete nasıl tepki verdiğini net bir şekilde ortaya koymuşlar.
Bu çalışma, büyük dil modellerinin sadece dil becerileriyle değil, aynı zamanda sosyal etkileşim kuralları ve kültürel normlarla da etkileşimde bulunduğunu anlamamız açısından yeni bir pencere açıyor. Bu bulgular, gelecekte yapay zekâ sistemlerinin daha etkili ve insana benzer etkileşimler sunabilmesi için sosyal inceliklerin daha fazla dikkate alınması gerektiğini işaret ediyor. Modellerin yalnızca doğru yanıtlar vermesi değil, aynı zamanda sosyal bağlamı ve karşı tarafın duygularını da anlaması gerekiyor. Örneğin, müşteri hizmetlerinde kullanılan yapay zekâ çözümlerinde, dilde nezaket ve incelik gibi unsurların dikkate alınması, bu sistemlerin daha etkili ve insana yakın hale gelmesini sağlayabilir.
Yapay zekâ sistemlerinin yalnızca teknik doğruluğa değil, aynı zamanda sosyal ve kültürel farkındalığa sahip olması, gelecekte bu teknolojilerin daha insancıl ve sosyal açıdan duyarlı olmasını sağlayabilir. Bu bulgular, yapay zekânın insan etkileşiminde nasıl daha başarılı olabileceğine dair önemli bir fikir veriyor ve dilde nezaket gibi insani özelliklerin bu sistemlere nasıl entegre edilebileceğini gösteriyor.
Referanslar
Yin, Z., Wang, H., Horio, K., Kawahara, D., & Sekine, S. (2024, February 22). Should we respect LLMs? A Cross-Lingual Study on the influence of prompt politeness on LLM performance. arXiv.org. https://arxiv.org/abs/2402.14531
Ozancan Özdemir kimdir? Ozancan Özdemir, lisans ve yüksek lisans derecelerini ODTÜ İstatistik Bölümü'nden aldı. Yüksek lisans döneminde aynı zamanda Anadolu Üniversitesi yerel yönetimler bölümünden mezun oldu. Bir süre ODTÜ İstatistik Bölümü'nde araştırma görevlisi olarak çalışan Özdemir, şu günlerde Groningen Üniversitesi Bernoulli Enstitüsü'nde finans ve yapay zekâ alanındaki doktora çalışmalarını sürdürüyor. Pandemi döneminde bir grup öğrenciyle birlikte gönüllü bir oluşum olan VeriPie adlı güncel veri gazetesini kurdu. Araştırma alanları yapay öğrenme ve derin öğrenme uygulamaları, zaman serisi analizi ve veri görselleştirme olan Ozancan Özdemir, ayrıca yerel yönetimler ve veriye dayalı politika geliştirme konularında da çeşitli platformlarda yazılar yazmaktadır. |