Türkiye'de Sağlık Bakanlığı'nın açıkladığı yeni tip Koronavirüs (Covid-19) verilerini inceleyen veri bilimci Dr. Nick Brown, "Elbette bu verilerin doğru sayılar olma ihtimali var. Ancak, bu ihtimal milyarda bir gibi bir şeye tekabül ediyor. Bu da bana neredeyse imkânsız görünüyor. Peki, nasıl böyle bir şey olabilir? Bilmiyorum, bu konuya birçok açıklama getirmek mümkün, ancak bunların COVID-19 ile ilgili gerçek sayılar olduğuna inanmıyorum. Ne olmuş olabileceği konusunda ise spekülasyon yapmak istemiyorum" dedi.
Daktilo1984'ten Salpi Özgür'e konuşan Brown, Türkiye'de açıklanan verilen Benford Yasası'na uymadığını söylerken, son rakamı 0'la biten sayının çok az olduğunu, yaptığı hesaplamalarla verilerin milyarda bir ihtimalle doğru olabileceğini söyledi. Brown, konuya ilişkin şunları kaydetti:
"Elimizde vaka sayıları, ölüm sayıları, yapılan test sayıları gibi pek çok sayının bulunduğu veri grupları varsa, yani elimizde gerçekten çok fazla miktarda sayı varsa, bunlardan yüzde onunun 0'la, yüzde onunun 1'le, yüzde onunun 2'yle bitmesini ve bu şekilde ilerlemesini bekleriz, çünkü on tane rakam vardır ve son hanelerin rakamlara dağılımının bir miktar farklılıklar içererek yakın olmasını bekleriz. Fakat fark ettim ki, sıfırla biten sayılar neredeyse yok denecek kadar az. Bu verilerin sıfırla bitmemesinin olasılığını hesaplamak için birkaç test yaptım. Elimizde üç veri grubu var. Bu gruplardan ilkinin böyle sonuçlara sahip olma olasılığı binde bir. İkinci grubun sonuçlarının bu şekilde çıkma olasılığı yüz milyonda bir ve toplamda tüm bu veri gruplarının Sağlık Bakanlığı'nın bizlerle paylaştığı sayılar gibi olması ihtimali ise milyarda birden bile az."
Türkiye'de açıklanan resmi verileri inceleyen Brown'un açıklamalarından satırbaşları şöyle:
"Verilerin Sağlık Bakanlığı'nın bizlerle paylaştığı sayılar gibi olması ihtimali milyarda birden bile az"
- Salpi Özgür: Veri okur-yazarlığı herkesin aşina olduğu bir konu değil. Bilmeyenler için şüphelerinizin kaynaklarını açıklar mısınız?
"Elimizde vaka sayıları, ölüm sayıları, yapılan test sayıları gibi pek çok sayının bulunduğu veri grupları varsa, yani elimizde gerçekten çok fazla miktarda sayı varsa, bunlardan yüzde onunun 0'la, yüzde onunun 1'le, yüzde onunun 2'yle bitmesini ve bu şekilde ilerlemesini bekleriz, çünkü on tane rakam vardır ve son hanelerin rakamlara dağılımının bir miktar farklılıklar içererek yakın olmasını bekleriz. Fakat fark ettim ki, sıfırla biten sayılar neredeyse yok denecek kadar az. Bu verilerin sıfırla bitmemesinin olasılığını hesaplamak için birkaç test yaptım. Elimizde üç veri grubu var. Bu gruplardan ilkinin böyle sonuçlara sahip olma olasılığı binde bir. İkinci grubun sonuçlarının bu şekilde çıkma olasılığı yüz milyonda bir ve toplamda tüm bu veri gruplarının Sağlık Bakanlığı'nın bizlerle paylaştığı sayılar gibi olması ihtimali ise milyarda birden bile az.
- Özgür: Çalışmanızda Benford Yasası'na atıf yapıyorsunuz. Benford Yasası bize veri gruplarında rakamların ne sıklıkta görülebileceğine dair bir takım olasılık oranları sunar. Sağlık Bakanlığı tarafından açıklanan verilerin Benford Yasası'na uymadığını görüyoruz. Bu, mutlaka verilerin elle girildiğine mi delalet ediyor, yoksa başka bir sebebi olabilir mi?
"Benford Yasası'ndan bahsedildiğinde aslında yasanın bizleri en çok ilgilendiren kısmı kast edilir. Bu durum gerçek hayatta gördüğümüz ondalık sayıların solundaki ilk basamakta birlerin ikilerden, ikilerin üçlerden daha fazla olma eğiliminde olduğudur, ancak bu yalnızca belirli koşullar altında geçerlidir. Yasanın bu kısmının, ülke içindeki COVID-19 vaka sayıları gibi verilere uygulanmasını bekleyemeyiz. Çünkü bu veriler günden güne çok fazla değişiklik gösterme eğiliminde değillerdir. Yani bugün dört yüz vakanız varsa, muhtemelen yarın dört yüz elli veya üç yüz elli arasında bir vaka sayısı olacaktır. Bunun yanı sıra, Benford Yasası'nın daha az bilinen bir kısmı da vardır ki, bu bize bir sayının ikinci, üçüncü ve diğer basamaklarının da nasıl görünmesi gerektiği konusunda fikir verir. Doğal bir sürecin sonucunda elimize geçen sayıları toplarsak, hemen hemen tüm sayılar için, üçüncü basamağa geldiğimizde, her rakamla aynı sıklıkta karşılaşmayı bekleriz ve bu rakamların sıklığı arasında büyük farklar olması, bu durumun vaka sayılarının birbirlerine eklenmesine yönelik doğal bir işlemin sonucu olmadığının işareti olabilir. Bu durum ister kazara ister kasıtlı olsun, veri girişindeki hatalardan kaynaklanıyor olmalı.
"Bunların COVID-19 ile ilgili gerçek sayılar olduğuna inanmıyorum"
- Özgür: Elimizdeki verilere baktığımızda, Sağlık Bakanlığı verilerinin istatistiki olarak imkânsız olup olmadığı konusunda ne kadar net yorum yapabiliriz?
"Elbette bu verilerin doğru sayılar olma ihtimali var. Ancak, bu ihtimal milyarda bir gibi bir şeye tekabül ediyor. Bu da bana neredeyse imkânsız görünüyor. Peki, nasıl böyle bir şey olabilir? Bilmiyorum, bu konuya birçok açıklama getirmek mümkün, ancak bunların COVID-19 ile ilgili gerçek sayılar olduğuna inanmıyorum. Ne olmuş olabileceği konusunda ise spekülasyon yapmak istemiyorum.
"Virüs umursamaz, bu yüzden gerçeklerin ne olduğunu bilmek önemlidir"
- Özgür: Söyledikleriniz gerçekten çarpıcı. Peki, veri ve veri analizini neden önemsemeliyiz?
"Dünyayı anlamanın en iyi yolu bu! Böyle şeyler oluncaya kadar veriler hakkında çok fazla endişelenmeden hayatımızı yaşayabiliriz, fakat COVID-19 gibi durumlar meydana geldiğinde sayısal gerçeklerle savaşamayacağımızı fark ederiz. Virüs umursamaz. Bu yüzden, gerçeklerin ne olduğunu bilmek önemlidir."