Türkiye’nin koronavirüs verileri: Benford Yasası ve uzmanlar ne diyor, rakamlar güvenilir mi?

“Açıklanan günlük sayılarda ‘tutarsızlıklar’ var, neredeyse hiçbiri 0’la bitmiyor, tekdüze dağılım göstermiyor”

Fotoğraf: Reuters

Sağlık Bakanı Fahrettin Koca, "Her vaka hasta değildir" diyerek Türkiye'nin 29 Temmuz'dan bu yana günlük olarak vaka değil hasta sayısını açıkladığını duyurduğunda, takvimler 30 Eylül'ü gösteriyordu.

Bakan Koca, ilk açıklamasının üzerinden bir ay geçmişken, geçen hafta çarşamba günü ise yaklaşık 5 ay sonra ilk defa Türkiye'deki günlük vaka sayısını açıkladı.

Sağlık Bakanlığı'nın açıkladığı verilere göre, Türkiye'de son 24 saat içinde 176 bin 656 test yapıldı, 31 bin 219 vakatespit edildi ve 188 kişi de koronavirüs sebebiyle hayatını kaybetti. 

Salgının başlangıcından bu yana hayatını kaybedenlerin sayısı 13 bin 746’ya ulaşırken, başta TürkTabiplerBirliği (TTB) olmak üzere sağlık alanında görev yapan meslek birlikleri, muhalefet partileri ve aralarında İstanbul Büyükşehir Belediye Başkanı Ekrem İmamoğlu'nun da bulunduğu bazı yerel yöneticiler gerçek rakamın açıklanandan çok daha yüksek olduğunu savunuyor. 

İspanya'nın Mallorca adasında yaşayan veri analisti Nick Brown'ın ise Sağlık Bakanlığı verilerine dair söyleyeceği başka bir şey var. 

Bakanlığın salgının başlangıcından bu yana açıkladığı verilerde ‘tutarsızlıklar’ olduğunu savunan Brown, nisan ayından beri devam tutarsızlıkların sebebine ilişkin ikna edici bir açıklama olmaması halinde bu rakamların doğal bir süreç sonucu ortaya çıkmasının pek de mümkün olmadığına inanıyor.

Brown'ın analizi iktisat kanunlarına metodolojik olarak uygunluk gösterirken; Bilgi Üniversitesi Ekonomi Bölümü'nden Prof. Dr. Cem Başlevent de Brown'ın ulaştığı sonucun, vaka ve vefat sayılarının düşük gösterilmeye çalışıldığı yönündeki şüpheleri güçlü şekilde desteklediği değerlendirmesinde bulunuyor.

Konuyla ilgili ulaşmaya çalıştığımız Sağlık Bakanlığı, iddialarla ilgili yorum yapmayı reddederken; bakanlık yetkilileri de açıklamaların sadece Bakan Koca tarafından yapıldığını belirterek konu hakkında konuşmadı. 
Sağlık Bakanı Koca, daha önce verilerle ilgili eleştirilere raporlama sürecinde gereken denetimlerin yapıldığı, prosedürlere uygun hareket edildiği ve "Herkesin üzerine düşeni yapma konusunda gayret içerisinde olması ve icraata odaklanması gerektiği" şeklinde cevap vermişti.

Türkiye’nin sıfırla bitmeyen günlük korona virüs verileri 

Ülkelerin koronavirüse dair açıkladığı verilerin istatistiksel olarak anlamlı olup olmadığının kontrol edilebileceği konusundaTwitter'da yaptığı yorum üzerine bir kullanıcının kendisine yönelttiği öneriyle yolları Türkiye'yle kesişen Brown’ın, dikkati çektiği ilk nokta, Sağlık Bakanlığı’nın paylaştığı veriler arasında yer alan ‘hastalardaki zatürre oranları’nın yazımında görülen teknik tutarsızlık. 

Bakanlık verilerinin bu bölümünde, hastalardaki zatürre oranlarının yüzdelik dilimleri bazı günler ‘virgül’ ile, bazı günler ‘nokta’ ile ayrılmış. Bu, aslında sık karşılaşılan bir durum. İngilizce’de ve bilimsel gösterimde yüzdelik dilimler yaygın olarak ‘nokta’ ile ayrılıyor, Türkçe’de ise bu iş için ‘virgül’ kullanılıyor, kimi noktalarda iki dilde de işlem yapan kişilerin yazımlarında tutarsızlıklar görülebiliyor. Verilerin bilgisayar üzerinden toplandığı durumlarda, kullanılan yazılımların bu uyumsuzluğu giderdiğini kaydeden Brown, bu durumun internet sitesindeki verinin bir veri tabanı raporu yerine manuel olarak tutulmuş bir tablodan gelmiş olabileceğine işaret ettiğini söylüyor. 

Brown’ın analizinde üzerinde durduğu diğer önemli nokta, Sağlık Bakanlığı’nın günlük olarak dört farklı başlık altında açıkladığı verilerin sadece çok azının 0'la bittiği gerçeği.

Sağlık Bakanlığı'nın açıkladığı verilere bakıldığında, günlük hasta sayısı en son 5 Haziran'da, test sayısı 29 Eylül'de, ölüm sayısı 26 Ağustos'ta ve iyileşen hasta sayısı da 13 Kasım'da küsuratlı olarak değil, yani sıfırla bitiyor. Son üç ayda bu dört başlıkta açıklanan 364 veriden de sadece dördünün (üçü iyileşen hasta, biri günlük test) sonundaki sayı sıfır.

On binlerce testin sonucunu veren sayının son hanesinin gelişigüzel olması gerektiğini belirten Brown, analizinde Benford Yasası'na dayanarak Ki-Kare testi yardımıyla Sağlık Bakanlığı'nın veri setindeki sayıların gelişigüzelliğini hesaplıyor ve listede yer alan günlük verilerin tekdüze şekilde dağılmadığı sonucuna ulaşıyor. 

Benford Yasası, genellikle "İlk Hane Kanunu" olarak biliniyor. Buna göre, gerçek dünyada ölçümler bazı koşullar dışında genellikle logaritmik olarak dağılır ve bir sayı listesinde en çok kullanılan ilk rakamın '1' olması ihtimali yüzde 30,6, '9' olması ihtimali ise yüzde 4,7'dir. Hayatın birçok alanında veriler tarafından da desteklenen Benford Yasası çoğunlukla ilk basamağa yönelik uygulamasıyla bilinse de, aslında son rakamlara ilişkin de öngörülerde bulunuyor ve seçimlerdeki yolsuzluk iddialarından muhasebe dolandırıcılıklarına kadar birçok alanda 'uyumsuzluğun', yani hilenin tespitinde kullanılabiliyor. Avustralya'da, kaçakçılıkla mücadele kapsamında gümrük beyannameleri Benford Yasası aracılığıyla analiz edilirken, Ukrayna'da ise seçimlerdeki oy pusulası hilelerinin tespitinde aynı yöntemden faydalanılıyor.
Benford Yasası'na göre, seri sayıların ikinci basamakları 'genellikle'; üçüncü, dördüncü ve devam eden basamakları ise her zaman tekdüze dağılım gösteriyor. Her bir rakamın bu basamaklarda bulunma olasılığı birbirine yakın olmasına rağmen hesaplamaya göre 0, 1, 2, 3 rakamlarının üçüncü ve devam eden basamaklarda bulunma ihtimali 6, 7, 8, 9'dan daha yüksek.

1111111111111111111111111.png

Kaynak: Gazi Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi

Bakanlığın açıkladığı günlük sayılar ise nadiren 0'la bitiyor ve özellikle de günlük ölüm sayılarının son rakamında 7, 8, 9 çok daha yaygın olarak görülüyor; oysa Benford Yasası'na göre bunların tekdüze dağılması gerekirdi. 

Brown'ın Sağlık Bakanlığı'nın açıkladığı günlük sayıları uyguladığı 'Ki-Kare Uyum İyiliği Testi' de bir veri setinin teorik dağılımıyla ampirik dağılımı arasındaki uyumu ölçerek tekdüze olup olmadığını konusunda fikir veriyor. On olası rakamın tekdüze dağılım göstermesinin beklendiği durumlarda Ki-Kare istatistiğinin 20'nin altında, p değerinin 0,01'in üzerinde olmamasının 'alışılmadık bir durumu işaret ettiğini' belirten Brown, Türkiye'de açıklanan günlük verilere bakıldığında ise bu sınırın hayli aşıldığını ifade ediyor.

En az anomalinin günlük ölüm sayılarında görüldüğünü belirten Brown, tutarsızlığın tek veriyle sınırlı kalması durumunda bunun üzerinde konuşmaya değmeyecek önemde olduğunu ancak dört veride de tutarsızlık tespit edilmesinin bir şekilde bu verilerin doğal bir süreç sonucu oluşmadığı izlenimi verdiğini söylüyor. 

Ortaya çıkan sonucun Türkiye'de vaka ve hasta sayıları konusunda yaşanan tartışmayla ilgili olmadığını ifade eden Brown, "Bu ikisini birbirinden ayırmanın önemli olduğunu düşünüyorum. Elde edilen sonuçlar, vakalar, testler, ölümler ve diğer istatistiklerin her birinin Nisan ayından bu yana içlerinde hatalar barındırdığını gösteriyor. Bu farklı bir problem" yorumunda bulunuyor.  

9pz5gImb_400x400.jpg
Nick Brown. (Fotoğraf: Twitter)


Bir başka çalışma: Türkiye’nin günlük açıkladığı toplam vaka sayısında bir ‘sorun’ bulmadık, ancak günlük açıklanan ‘yeni vaka sayısında’ istatistiki gariplikler tespit ettik

Duke Üniversitesi Siyasal Bilimler Fakültesi’nden Fatih Serkant Adıgüzel, Oxford Üniversitesi’nden Aslı Cansunar ve Kadir Has Üniversitesi Ekonomi Fakültesi’nden Gözde Çörekçioğlu İshakoğlu’nun Ağustos ayı sonunda tamamladıkları ve Eylül ayında yayımlanan “Doğruluk mu, cesaret mi? KOVİD-19 istatistiklerinde sistematik manipülasyonun saptanması” başlıklı makalelerinde yer verdikleri çalışmada da Türkiye verilerinin “sorunlu” olduğu sonucuna ulaşılmış.

Türkiye’nin yanısıra ABD, Çin ve Rusya’nın da aralarında bulunduğu dokuz ülkeye ait koronavirüs verilerini inceleyen çalışma, yöntemsel olarak Bernd Beber ve Alexandra Scacco’nun 2012 yılında yayımladıkları makaleye dayanıyor.

Beber ile Scacco’nun birtakım istatistiki metotlarla seçim sandıklarından gelen sonuçların ‘doğal bir veri girişi sonucu’ mu olduğu yoksa ‘insan eliyle manipüle ile girildiğini’ anlamaya çalıştıklarını belirten Oxford Üniversitesi’nden Cansunar, bunun için da çok basit bir mantığı olan, oldukça yararlı bir istatistiki metot geliştirdiklerini söylüyor.

‘Son rakam analizi’ adı verilen bu metotla, çalışmalarında Türkiye için hem günlük toplam vaka sayısını hem de günlük yeni vaka sayısını incelediklerini kaydeden Cansunar, şöyle devam ediyor:

Biz Türkiye’nin günlük açıkladığı toplam vaka sayısında bir ‘sorun’ bulmadık. Ancak günlük açıklanan ‘yeni vaka sayısında’ istatistiki gariplikler tespit ettik. Bu verileri kullanıp yaptığımız testlerde, 0’ların çok az olduğunu gördük, ki bu aslında Beber ve Scacco’nun açıkladığı, ‘insanlar rastgele sayı oluşturmaya çalışırken 0’la biten sayıların rastgeleymiş gibi hissedilmemesi’ bulgusuyla uyumlu. Bizim araştırmamıza göre, istatistiki garipliğin günlük yeni vakalarda olması da normal, çünkü Türkiye’de gerek haber kanallarının gerekse insanların genellikle üzerine konuştuğu veri istatistik günlük yeni vaka (hasta) sayıları.

Brown’ın yaptığı testlerin kendilerinin uyguladıklarına çok benzediğinin ancak uygulama zamanı ve odaklanılan veri grupları açısından farklılıklar barındırdığının altını çizen Cansunar’a göre, ‘son rakam analizi’ yöntemiyle yayımlanan sayılardaki “garipliğin” ne olduğunu bulmak ya da birini açıkça suçlayabilmek mümkün değil, mümkün olan tek şey ‘veri üretim sürecinde’ bir anormallik olduğunun tespiti.

"Açıklanan sayılar daha gerçekçi görünmeleri için sıfırla bitmeyen sayılar olarak belirlenmiş olabilir"

Brown’ın analizini değerlendiren Bilgi Üniversitesi'nden Prof. Dr. Başlevent’se, salgın döneminin tüm verilerini kullanan veri analistinin incelemesinin yeterince büyük bir seti kapsadığı yorumunda bulunuyor.

"Bu kadar çok sayıda ve büyük sayılar incelendiğinde son basamaklarının 0–9 rakamları arasında düzenli dağılması gerektiğini, ancak incelediği sayılarda bunun söz konusu olmadığını, özellikle sıfırla biten sayıların çok az olduğunu söylüyor. Yaptığı istatistiksel test de sıradışı bir dağılım olduğunu destekliyor" diyen Başlevent'e göre Brown'ın değerlendirmesi, "istatistik öğrencilerinin iyi bildiği Ki-Kare testlerinin güzel bir gerçek hayat uygulaması olarak ilgi çekici bir analiz."

Cem Başlevent. Twitter.jpg
Prof. Dr. Cem Başlevent. (Fotoğraf: Twitter)


Verilerin "sıradışı" dağılım göstermesinin, "açıklanan vaka ve benzeri sayıların daha gerçekçi görünmeleri için sıfırla bitmeyen sayılar olarak belirlendiği şeklinde yorumlanabileceğini" söyleyen Başlevent, "Bu çaba çok uzun süre gösterilince bu kez de farklı bir tuhaflık ortaya çıkmış" değerlendirmesini yapıyor. 

"Eğer son hane alışılmışın dışındaysa her zaman bir dolandırıcılık vardır dememiz mümkün değil"

Nick Brown'a göreyse bir sayı serisinin tekdüzelikten uzaklaşmasını açıklayacak birçok sebep olabilir. "Eğer son hane alışılmışın dışındaysa her zaman bir dolandırıcılık vardır, dememiz mümkün değil" diyen Brown, bu durumun başka açıklaması da olabileceğini belirterek bir örnek veriyor: 

Bir market alışverişi fişine baktığınızda birçok sayının 0 ya da 9'la bittiğini göreceksinizdir. Çünkü 'domates 3 lira' demek ya da ürünleri daha çekici hale getirmek için 99 cent küsuratlı satmak yaygın davranışlardır. Ama Hollanda'ya gittiğinizde fişte çokça 5 ve 0 görürsünüz çünkü bir ya da iki cent'lik madeni paraları kullanmazlar. 

Ancak verilerin düzensiz olmasına dair mantıklı bir açıklama yoksa, bu onların büyük bir havuzdan toplanmak yerine elle üretildiği anlamına gelebilir. Farklı kaynaklardan topladığınız verilerde, o verilerin tamamı elle üretilmiş olsa da toplam sayıya baktığınızda bu düzensizlikleri yaşamanız çok da olası olmaz.

Türkiye'de açıklanan günlük koronavirüs sayıları da yanlış gözüküyor. Neden olabileceğini bilmiyorum. Bunun birçok sebebi olabilir ve bu sebebi ben bilemem. Ancak biri çıkıp da neden kaynaklandığını anlatırsa dinlemeyi çok isterim.

Cambridge Üniversitesi'nde mühendislik okuyan ancak "matematiği o kadar da iyi olmadığı" için kendisini bilgisayar sektöründe yöneticilik yaparken bulduğunu söyleyen Brown, bir insan kaynakları konferansında Britanyalı psikolog Richard Wiseman'la tanışmasının ardından psikoloji yüksek lisansı yapmaya karar vermiş. Psikoloji okuduğu dönemde yapılan çalışmaları incelerken giderek işin istatistik yönüne daha fazla ağırlık vermeye başladığını söyleyen Brown'ın farklı alanlarda yapılan araştırmalarda kullanılan verilerin istatistiksel bağlama uygun olup olmadığını değerlendirdiği birçok çalışması da var.

"İnsanlardan bir sayı uydurmalarını isterseniz sonu 0'la bitenlerden kaçma eğilimi gösteriyorlar"

Prof. Dr. Başlevent'in, günlük sayıların teamülün aksine nadiren 0'la sona ermesinin "açıklanan vaka ve benzeri sayıların daha gerçekçi görünmeleri için sıfırla bitmeyen sayılar olarak belirlendiği şeklinde yorumlanabileceği" değerlendirmesi üzerine, üretilmiş veri setlerinde sıfırın daha az tercih edilmesinin psikolojik sebeplerinin ne olabileceği sorulduğunda Brown, yaptığı değerlendirmenin verilerin bir kişi tarafından üretildiğini öne sürmediğini ancak durumun, 2009 tarihli 'Son basamağın değeri: İstatistiksel dolandırıcılığın basamak analiziyle tespiti' başlıklı makaledeki veriler ışığında şöyle yorumlanabileceğini söylüyor:

Dediğim gibi, yaptığım değerlendirmede sayıların bir kişi tarafından üretildiğini söylemiyorum. Ancak araştırmalar da gösteriyor ki, eğer insanlardan bir sayı uydurmalarını isterseniz sonu 0'la bitenlerden kaçma eğilimi gösteriyorlar. Sana bir futbol stadında kaç kişi olduğunu sorsam ve gerçek sayı 27 bin 714 olsa ama kulübün yöneticisi senden gelenleri fazla göstermeni istese muhtemelen 35 bin demezsin, 35 bin 406 ya da buna benzer bir cevap verirsin. Ancak gerçek sayının 27 bin 714 olma ihtimali 28 bin ya da 35 bin olma ihtimaliyle aynıdır.

Eğer çocuklara gidip de büyük bir sayı söylemelerini istesen bunu yapmazlar, çünkü daha son basamaktan ya da buna dair önyargıdan haberdar değillerdir ve 300, 500 ya da 3 bin diyebilirler. Yetişkinlerin yaptığı şeyleri henüz öğrenmemişlerdir.

Bu durum sadece sıfırlarla ilgili de değil. 'Rastgele' sayılar uydurmaya çalışan farklı insanların son basamaktaki farklı rakamlara karşı önyargısı vardır. Bu nedenle sadece sıfırlara bakmadım ve 10 rakamın her birinin dağılımını görmek için ki-kare testi uyguladım. Ancak sıfırların eksikliği genelde ilk kontrol ettiğim şeydir.

“Bir şeyi yapmakta o kadar da iyi olmayan insanlar, çoğu zaman iyi olmadıklarının da farkında olmazlar”

Peki, bu noktada Sağlık Bakanlığı'nın açıkladığı günlük sayılardaki 'tutarsızlığa' verilerin bir havuzdan toplanarak değil de elle girilmesinin sebep olduğunu varsayarsak, Brown'ın ilk başta baktığı 'sıfırların eksikliği' durumunun "acemice bir hata" olduğunu söylemek mümkün mü? 

Yaptığı değerlendirmenin sonucunda böyle bir imada bulunmadığını bir kez daha hatırlatan Brown'a göre varsayımsal olarak böyle bir hatayı yapan kişinin bu hatanın fark edileceğini düşünememesi olası:

Popüler psikolojideki biraz tartışmalı ama aynı zamanda da eğlenceli Dunning-Kurger etkisini biraz değiştirerek söyleyeceğim; Bir şeyi yapmakta o kadar da iyi olmayan insanlar, çoğu zaman iyi olmadıklarının da farkında olmazlar. Eğer, doğru sayıları toplamada iyi olmayan bir insan ya da çalışansanız, makul sahte sayılar üretmede de iyi olmayacaksınızdır. Varsayımsal olarak konuşuyoruz burada, ama sayıları uydurması gerekecek kişilerin sayıları uydurmada çok da iyi olmaması gerektiğini söyleyebilirim, çünkü eğer sayılarla aranız iyiyse onları uydurmanızı gerektirecek bir pozisyonda çalışmamanız gerekir.

"Yazdığım kod ve veriler burada; onlara bakın ve dünyaya analizimin neden yanlış olduğunu söyleyin"

Yetkililerin de sonuçlar karşısında araştırmayı vasıflarını sorgulayabileceğini ve bunun da oldukça yerinde olduğunu belirten Brown'un son notuysa şu: 

Bu değerlendirmeyi bağımsız bir araştırmacı ve Türkiye'deki tartışmalara dair herhangi bir konumu bulunmayan bir bilim insanı olarak gerçekleştirdim. Biri bu araştırmayı yapanın niteliklerini sorduğunda bu konuda bir iddiada bulunmuyorum ama yazdığım kod burada, verilerim burada. Bu sayılar yanlış gözüküyor. Neden olabileceğini bilmiyorum. Bunun birçok sebebi olabilir ve gerçek sebebi benim bilmem mümkün değil. Ancak yazdığım kod ve veriler ortada, onlara bakın ve dünyaya analizimin neden yanlış olduğunu söyleyin.

Nick Brown'ın Türkiye'nin koronavirüs verilerine dair değerlendirmesi ve dikkat çektiği noktalar Sağlık Bakanlığı'na iletildi. Bakanlık, haberin yayımlandığı saate kadar Brown'ın değerlendirmelerine yönelik herhangi bir açıklamada bulunmadı. İsmini vermek istemeyen bir bakanlık yetkilisi, bir cevap verilmemesinin olası olduğunu, gerekli açıklamaların Bakan Koca tarafından yapıldığını söyledi.

MHP: Bu tartışmaların anlamı yok

Türkiye Büyük Millet Meclisi (TBMM) Sağlık, Aile, Çalışma ve Sosyal İşler Komisyonu Üyesi ve tıp profesörü Sefer Aycan ise Sağlık Bakanlığı’nın verileriyle ilgili herhangi bir sıkıntı olmadığını ve verilerin gayet güvenilir olduğunu düşünüyor. Halk sağlığı alanında çalışan MHP milletvekili Prof. Aycan’a göre bir süredir hem hasta hem de pozitif vaka sayılarını açıklayan Bakanlığın paylaştığı verilerde herhangi bir sorun yok.

aa.jpg
Sefer Aycan. (Fotoğraf: AA)


“Bu tartışmaların da aslında çok anlamı yok. Bir fazla, iki eksik olsa ne olacak ki. Şu an hep birlikte, birlik içerisinde mücadele etmemiz lazım. Sayılarla uğraşacağımıza daha fazla ne yapabiliriz, bunu konuşmamız gerekiyor” diyen Aycan, dile getirilen güvensizliğin toplumun geneline yayılmadığı ve sadece muhalefet partileri tarafından gündeme getirildiği yorumunda bulunuyor:

Güvensizliğin kimseye bir faydası yok, muhalefete de faydası yok, ülkeye de faydası yok. Kaos çıkarmaya yönelik bir şey. Sayı üç aşağı, beş yukarı olsa ne fark eder?

© The Independentturkish

DAHA FAZLA HABER OKU