published on 19.06.2018

Tanımlayıcı istatistiklerden ortalama ve ortanca. Analiz yapılırken iş bu ikisinden hangisinin anlamlı olduğuna geldiğinde sık sık hata yapılmaktadır. Hataların yanısıra, dünyada bu istatistiklerin manipüle edilerek kötüye kullanıldığı örnekler de ne yazık ki çoktur. (bknz: statistical lies) Ne zaman hangisi kullanılmalıdır, basitçe açıklayalım.

Ortalama, herkesin iyi bildiği terimlerden biri, tüm değerleri topla / kaç değer varsa ona böl.

Ortanca (medyan), adı üstünde, veriler sıralandıktan sonra tam ortadaki değerdir. Diğer bir deyişle, verilerin yarısına büyük-eşit yarısına da küçük-eşit olan değerdir.

“Ne zaman medyan kullanılmalıdır?”, sorusuna verilecek belki de en klasik örnek, vatandaşın gelirini gösteren veri setidir.

1	1	1	1	1	1	1	1	1	1
2	3	4	4	4	4	4	5	5	5

Yukarıdaki veri seti için, ortalama = 2.5, ortanca = 1.5 gelecektir. Hatta farkı daha iyi görmek adına, son değeri 5*10^6 yaparsak, ortalama 250*10^3'ün üzerinde olacaktır. Varsayalım ki bu veriler, X Distopyasındaki insanların gelir dağılımı olsun. Bir kişinin geliri 5 milyon iken memleketin yarısı 1, onlardan hallice bir grup da 2 3 4 gelire sahipler.

Eğer çıkıp dersek ki; bu memleketin gelir ortalaması 250,000’dir. Çok anlamlı olmaz. Doğal olarak burada kullanılması gereken istatistik medyandır. Çünkü veri simetrik dağılmamıştır.

Dağılım simetrikleştikçe, ortalama, medyan ve mod birbirine yaklaşacaktır. Tam simetriklik durumunda eşit olacaklardır. Normal dağılmış bir veri seti için, bu durumu aşağıdaki grafikte görmekteyiz.

Normal Dağılım
Normal Dağılım

Veri simetrik dağılmamışken, ortalama (mean) aşırı uçlardan (outlier) etkilenirken, medyan bize daha anlamlı bilgiler sunacaktır. Çarpık dağılımlarda, ortalama, çarpıklığın olduğu tarafa doğru kayacaktır. Örneğin, aşağıda sola çarpık dağılımda ortalama, ortancanın solunda kalmıştır.

Sola Çarpık Dağılım
Sola Çarpık Dağılım

“Hangisini kullanmalıyız?"‘ın cevabı, “neyi aradığımızda” gizlidir. Örneğin;

Önceki örnekteki gibi gelir dağılımıyla ilgileniyorsak

medyan değerini kulllanmalıyız. Çünkü medyan bize, populasyondan seçilecek ortalama (tipik, standart, orta direk) bir vatandaşın geliri hakkında en iyi tahmini verecektir ve populasyonu daha iyi temsil edecektir. Özetlemek gerekirse;

  • Ortalama (Mean): Ortalama gelir nedir?
  • Ortanca (Medyan): Ortalama bir vatandaşın geliri nedir?

Türkiye’deki şehirlerin ortalama nüfusu

“Eğer ki herkesi göç ettirip nüfusu memlekete eşit dağıttığımızda ne olur?” sorusunu araştırmıyorsak, medyan kullanılmalıdır. Aksi halde, İstanbul gibi nüfusu yüksek şehirler, yukarıdaki örnekte 5 milyon gelire sahip kişi gibi davranabilir.

Bir anket yaptık, müşteri memnuniyetini ölçmek adına

Yine medyana dikkat edilmelidir. Yukarıdaki örnek veri setini tekrar ele alalım. 5 - çok iyi, 1 - çok kötü, 3 - orta seviye puan olsun. Sadece ortalamaya bakıldığında, 2.5 puan ile, sistem “idare eder, orta seviye” puana sahiptir yorumu bizi yanlış yönlendirecektir. Müşterilerin yarısının 1 puan verdiği gözden kaçabilir. Medyan = 1.5, orta seviyenin altında daha gerçekçi bir değerlendirme olur.

Medyanın, aritmetik ortalamaya tercih edilebileceği bir durum da verilerin sayısal olmayıp sıra dizisi olduğu durumdur.

Örneğin; bir ankete verilebilecek cevaplar, “çok iyi”, “iyi”, “nötr”, “kötü” ve “çok kötü” olsun. Medyan olduğu gibi çalışacakken, aritmetik ortalamayı kullanabilmek için bu cevap seçeneklerine bir çeşit katsayı atanmalıdır.

Bazı durumlarda ise her iki metrik de anlamlıdır.

Ortalama enerji tüketimi

  • Eğer “ortalama bir vatandaşın tükettiği enerji” araştırılıyorsa medyana dikkat edilmelidir.
  • Eğer “enerji tüketimi eşit dağıtılırsa bir kişi ne kadar enerji harcamış olur” araştırılıyorsa ortalamaya bakılmalıdır.

Müşterilerin sistemde harcadıkları para

  • Müşteri sayısıyla çarpıp toplam geliri kolayca hesaplamak için “ortalama”
  • Ortalama bir müşterinin harcadığı para araştırılıyorsa yine medyan anlamlı olacaktır.

Özetlemek gerekirse, medyan aşırı uçlardan daha az etkilendiği için, genelde, populasyonu daha iyi temsil eder. Ancak; her zaman önce veri seti görselleştirilmelidir ve verilerin nasıl dağıldığı incelenmeli, varyans dikkate alınmalıdır. Hızlıca analize geçip rakamları toplayıp bölmeden önce, neye cevap arandığı iyi belirlenmelidir.

Ayrıca (bknz: trimmed mean, winsorized mean)

Published on 19.06.2018 by Mert Bakır with commit db8d56a.
statistics
#statistics
published on 10.07.2022

Previously, I’ve published a blog post about deploying static content on heroku with basic authentication. The main purpose was to get basic auth for a freely hosted static website. In that post, we hosted the source code on GitLab and configured a CI/CD pipeline to render the static content …

published on 28.05.2022

Each git commit has a field called Author which consists ‘user.name’ and ‘user.email’. We usually set these variables once, after installing git, with git config --global so that each repo gets the variables from the global definition. We can also set them locally for a …

published on 25.05.2022

In this post, I’ll first walk through hosting static content with basic authentication. Then, we’ll look into deploying to Heroku using GitLab Pipelines, more specifically deploying a certain sub-directory within the project instead of pushing the whole project. Also, I’ll share …

published on 17.04.2022
edited on 15.07.2022

Önceki bölümde, markdown formatını LaTeX formatına dönüştürmek için kullanılan Pandoc yazılımından bahsetmiştik. Şimdi konuyu bir adım daha ileri taşıyıp ve bookdown’a geçiyoruz. Bookdown; Rmarkdown kullanarak teknik dökümanlar, kitaplar yazabilmemizi sağlayan, Yihui Xie tarafından yazılmış …

published on 10.04.2022

I’ve been using WSL-2 on Windows for over a year. It’s very useful because some Python packages are just a headache to install on Windows. Also, docker. It’s just better on Linux. Yet, WSL-2 can also be problematic. I remember trying a dual-boot setup when things just went way too …

published on 03.03.2022

In this post, I’ll share how to install geopandas and some other gis related packages on Windows. If you are on Mac or Linux you can probably just pip install those without any issue. I usually had to do a google search every time I wanted to install these packages on Windows environment. Of …