Gündem

O ses kaydının gerçekliğine ilişkin teknik bir analiz

Kendini 'hem konuşma akustiği, hem dil bilimi doktorasının sonuna gelmiş çalışkan bir öğrenci' olarak tanımlayan Kıvanç Kitapçı, Başbakan Erdoğan'ın reddettiği ses kaydını analiz etti

25 Şubat 2014 20:22

Başbakan Tayyip Erdoğan, oğlu Bilal Erdoğan'la yaptığı iddia edilen telefon görüşmesilerinin yer aldığı ses kayıtlarının "dublaj ve montaj" olduğunu savundu. Erdoğan, grup toplantısında kayıtlara dair "Dün akşam saatlerinde kendi kurguladıkları, dublajını da kendi yaptıkları piyesi servis ettiler. Elinizde ne varsa çıkarın diyorum. Bunlar gidiyor alçakça hayâsızca montaj yapıp bunu servis ediyorlar" dedi. Bu açıklamadan bir süre sonra akustik danışman ve araştırmacı Kıvanç Kitapçı Twitter hesabından,  ses kayıtlarına dair yaptığı bir analizi yayımladı. Kitapçı, ses yazılım programı Praat’ı kullanarak Tayyip Erdoğan'ın farklı seslerini karşılaştırdı ve yüzde 5'lik bir hata payı vererek ses kaydındakinin yüzde 95 oranında Erdoğan olduğunu söyledi.

Kıvanç Kitapçı'nın blogunda "Tayyip Erdoğan – Bilal Erdoğan Telefon Görüşmesi Analizi" başlığıyla yayımladığı, subjektif bir dille ancak olgular üzerine inşa ettiği yazısı şöyle: 

24 Subat 2014 gecesi internete sızdırılan Tayyip Erdoğan ve oğlu Bilal Erdoğan arasındaki telefon görüşmesi olmadığı ile ilgili ortaya bir sürü fikir atıldi. Kimi yalandır mümkün değil dedi, kimi bunları yaptığını zaten biliyorduk kanıtlanmiş oldu dedi. Peki böyle bir konuşma kaydının sahtesini oluşturmak mümkün mü, mümkünse nasıl mümkün? Sahte olup olmadığını nasıl anlarız?

 

Anlamadım BBCM!

 

Konuşma kayıtları 2 şekilde sahte olabilir. Birinci yöntem (yapılması daha kolay), Tayyip Erdoğan ve Bilal Erdoğan olmayan iki kişi, sesleri taklit ederek bir oyun sahneye koyarlar ve bunu kaydederler. İkinci yöntem (inandırıcı olması en iyi teknoloji kullanılsa bile imkansiza yakın olan yöntem) Tayyip Erdoğan ve Bilal Erdoğan’ın daha önceki ses kayıtlarından alınan farklı kelimeler bir araya getirilir, normalize edilir, frekanslarıyla oynanır, modülasyona sokulur, (aklıma gelmeyen diğer teknik terimleri de siz ekleyebilirsiniz) ve sonuçta ortaya yamalı bir ses kaydı çıkar.

İkinci yöntemi test etmek için hiç uğraşmayacağım, çünkü bu hayal ürünü teknik, yani montaj, insan kulağı tarafindan rahatlıkla anlaşılır. Ayrıca dün internette çokça dolaşan Ali Büyük’ün yaptığı spectrum analizi de bunu kanıtlar niteliktedir. Ali Büyük ses kaydının farklı bölümlerinden sample’lar alıp bunların frekans spectrum’larını kıyaslamış, ve kaydın bir bütün olduğunu (yani montaj olmadığını) kanıtlamaya çalışmıştı.

Peki ya bahsettiğim ilk yöntem? Yani sesler Tayyip Erdoğan'a ve Bilal Erdoğan’a mı ait? Bu bir tiyatro oyunu mu? Bunu anlayabilir miyiz?

Hem konuşma akustiği hem dil bilimi doktorasının sonuna gelmiş bir nerd olarak görev edindim. Ben bunu anlarım arkadaş. Sizin de daha rahat anlamanız için çok kısa olarak ön bilgi vereyim.

 

Nasıl konuşuyoruz?

 

İnsan sesi ilk olarak ses tellerinin vibrasyonuyla oluşur. Fakat bu vibrasyon anlamlı konuşmanın oluşması için yeterli değildir. Ses tellerinde oluşan ilk ses (F0 frekansı), sırasıyla gırtlak, ağız boşluğu, dil, diş ve en son dudaklarda modülasyona uğrar. Bu işlem sonucunda anlamlı sesler çıkartmaya başlarız (genellikle!?). Haliyle konuşma sesinin iki temel komponenti vardir. F0 frekansı ve modülasyon sonucu eklenen frekanslar (yani harmonic’ler).

Bir insan başka bir insanın sesini taklit ederken sadece harmonic’lerle oynayabilir. F0 frekansını değiştirmek için ses tellerine tıbbi operasyon gerekir. F0 frekansı parmak izi gibidir, her insanda farklıdır. Dile, aksana, lehçeye, cinsiyete, ve hatta o onda icinde bulunulan duygusal duruma göre değişiklik gösterir. Ama işin acı yanı bunu kulağımızla anlamamız mümkün değildir. Yani aslında insan sesi sadece harmonic’ler değiştirilerek taklit edilebilir (yetenek gerekli evet) ve bir insanı kandırabilir. Ama sadece bir insanı kandırabilir. Elimin altında bir akustik labaratuvarı var. Beni kandıramaz.

 

O zaman ne yapıyoruz?

 

Öncelikle uyumuyoruz. Nedenine gelince. Elimizde sahte olup olmadığını anlamaya Çalıştığımız ses kaydı var. Bunu kıyaslamak için sahte olmadığına emin olduğumuz ses kayıtlarına ihtiyacımız var. Youtube sağolsun, istemediğimiz kadar (gerçekten) Tayyip Erdoğan konuşmasına ulaşabiliyoruz. İzleyeceğimiz yöntem şu. Tayyip – Bilal Erdoğan telefon görüşmesinden net olarak anlayabildiğimiz 20 adet kelimeyi alıyoruz. Bu acısız kısım. Korkunç olan kısım ise bu kelimelerin geçtiği ve sahte olmadığına emin olduğumuz Tayyip Erdoğan konuşmalarını bulmak.

Bir ömur yetecek Tayyip Erdoğan konuşmasının üzerinden geçtikten sonra kelimeleri buldum ve ayrı ses dosyaları halinde ayırdım. Ve son aşama: F0 Contour analizi. Bu analizi yapmak için ünlü linguistic yazılımı Praat’i kullanacağız. Aşağıda “Erdoğan” kelimesinin karşılaştırmasını veriyorum.

Öncelikle sizin de gördüğünüz gibi, spectrum analizi farklılıklar gösteriyor. Bu iki kaydın birebir aynı olmadığının kanıtıdır. F0 Contour çizgisi mavi olan. Şekillerinin birebir aynı olması iki konuşmacının aynı aksanla konuştuklarını ve vurguları aynı noktalarda yaptıklarını açıklar. Daha da önemli olan bilgi F0 merkez frekansı. Orjinal kayıtta 205.3 Hz olan frekans youtube’dan alınan kontrol kaydında 213 Hz. Birbirlerine fazlasıyla yakın.

 

Sonuç

 

Peki bu bilgiler bize ne söylüyor. Bu bilgiler bize %5’lik bir hata payı bırakarak bu iki kayıttaki sesin aynı kişiye ait olduğunu söylüyor. İşlem uzun sürdüğünden ve kendimi daha fazla Tayyip konuşması dinleyebilecek gibi hissetmediğimden şimdilik 12 kelime üzerinde karşılaştırma yapabildim. Normal şartlar altında fazlasıyla yeterli olan bu sayıyı önümüzdeki günlerde ne olur ne olmaz diyerek arttırmayı planlıyorum.

 

İlgili Haberler