published on 19.06.2018

Tanımlayıcı istatistiklerden ortalama ve ortanca. Analiz yapılırken iş bu ikisinden hangisinin anlamlı olduğuna geldiğinde sık sık hata yapılmaktadır. Hataların yanısıra, dünyada bu istatistiklerin manipüle edilerek kötüye kullanıldığı örnekler de ne yazık ki çoktur. (bknz: statistical lies) Ne zaman hangisi kullanılmalıdır, basitçe açıklayalım.

Ortalama, herkesin iyi bildiği terimlerden biri, tüm değerleri topla / kaç değer varsa ona böl.

Ortanca (medyan), adı üstünde, veriler sıralandıktan sonra tam ortadaki değerdir. Diğer bir deyişle, verilerin yarısına büyük-eşit yarısına da küçük-eşit olan değerdir.

“Ne zaman medyan kullanılmalıdır?”, sorusuna verilecek belki de en klasik örnek, vatandaşın gelirini gösteren veri setidir.

1
2
1	1	1	1	1	1	1	1	1	1
2	3	4	4	4	4	4	5	5	5

Yukarıdaki veri seti için, ortalama = 2.5, ortanca = 1.5 gelecektir. Hatta farkı daha iyi görmek adına, son değeri 5*10^6 yaparsak, ortalama 250*10^3'ün üzerinde olacaktır. Varsayalım ki bu veriler, X Distopyasındaki insanların gelir dağılımı olsun. Bir kişinin geliri 5 milyon iken memleketin yarısı 1, onlardan hallice bir grup da 2 3 4 gelire sahipler.

Eğer çıkıp dersek ki; bu memleketin gelir ortalaması 250,000’dir. Çok anlamlı olmaz. Doğal olarak burada kullanılması gereken istatistik medyandır. Çünkü veri simetrik dağılmamıştır.

Dağılım simetrikleştikçe, ortalama, medyan ve mod birbirine yaklaşacaktır. Tam simetriklik durumunda eşit olacaklardır. Normal dağılmış bir veri seti için, bu durumu aşağıdaki grafikte görmekteyiz.

Normal Dağılım
Normal Dağılım

Veri simetrik dağılmamışken, ortalama (mean) aşırı uçlardan (outlier) etkilenirken, medyan bize daha anlamlı bilgiler sunacaktır. Çarpık dağılımlarda, ortalama, çarpıklığın olduğu tarafa doğru kayacaktır. Örneğin, aşağıda sola çarpık dağılımda ortalama, ortancanın solunda kalmıştır.

Sola Çarpık Dağılım
Sola Çarpık Dağılım

“Hangisini kullanmalıyız?"‘ın cevabı, “neyi aradığımızda” gizlidir. Örneğin;

Önceki örnekteki gibi gelir dağılımıyla ilgileniyorsak

medyan değerini kulllanmalıyız. Çünkü medyan bize, populasyondan seçilecek ortalama (tipik, standart, orta direk) bir vatandaşın geliri hakkında en iyi tahmini verecektir ve populasyonu daha iyi temsil edecektir. Özetlemek gerekirse;

  • Ortalama (Mean): Ortalama gelir nedir?
  • Ortanca (Medyan): Ortalama bir vatandaşın geliri nedir?

Türkiye’deki şehirlerin ortalama nüfusu

“Eğer ki herkesi göç ettirip nüfusu memlekete eşit dağıttığımızda ne olur?” sorusunu araştırmıyorsak, medyan kullanılmalıdır. Aksi halde, İstanbul gibi nüfusu yüksek şehirler, yukarıdaki örnekte 5 milyon gelire sahip kişi gibi davranabilir.

Bir anket yaptık, müşteri memnuniyetini ölçmek adına

Yine medyana dikkat edilmelidir. Yukarıdaki örnek veri setini tekrar ele alalım. 5 - çok iyi, 1 - çok kötü, 3 - orta seviye puan olsun. Sadece ortalamaya bakıldığında, 2.5 puan ile, sistem “idare eder, orta seviye” puana sahiptir yorumu bizi yanlış yönlendirecektir. Müşterilerin yarısının 1 puan verdiği gözden kaçabilir. Medyan = 1.5, orta seviyenin altında daha gerçekçi bir değerlendirme olur.

Medyanın, aritmetik ortalamaya tercih edilebileceği bir durum da verilerin sayısal olmayıp sıra dizisi olduğu durumdur.

Örneğin; bir ankete verilebilecek cevaplar, “çok iyi”, “iyi”, “nötr”, “kötü” ve “çok kötü” olsun. Medyan olduğu gibi çalışacakken, aritmetik ortalamayı kullanabilmek için bu cevap seçeneklerine bir çeşit katsayı atanmalıdır.

Bazı durumlarda ise her iki metrik de anlamlıdır.

Ortalama enerji tüketimi

  • Eğer “ortalama bir vatandaşın tükettiği enerji” araştırılıyorsa medyana dikkat edilmelidir.
  • Eğer “enerji tüketimi eşit dağıtılırsa bir kişi ne kadar enerji harcamış olur” araştırılıyorsa ortalamaya bakılmalıdır.

Müşterilerin sistemde harcadıkları para

  • Müşteri sayısıyla çarpıp toplam geliri kolayca hesaplamak için “ortalama”
  • Ortalama bir müşterinin harcadığı para araştırılıyorsa yine medyan anlamlı olacaktır.

Özetlemek gerekirse, medyan aşırı uçlardan daha az etkilendiği için, genelde, populasyonu daha iyi temsil eder. Ancak; her zaman önce veri seti görselleştirilmelidir ve verilerin nasıl dağıldığı incelenmeli, varyans dikkate alınmalıdır. Hızlıca analize geçip rakamları toplayıp bölmeden önce, neye cevap arandığı iyi belirlenmelidir.

Ayrıca (bknz: trimmed mean, winsorized mean)

Published on 19.06.2018 by Mert Bakır with commit f4cc6e6.
statistics
#statistics
published on 10.11.2018

While the mean and standard deviation are descriptive statistics, the mean and standard error describes bounds for a random sampling process. This difference changes the meaning of what is being reported: a description of variation in measurements vs a statement of uncertainty around the estimate of …

published on 29.06.2018

Bu yazının amacı linear regresyona detaylı bir giriş yapmaktır. Regresyon analizinin amacı, değişken setleri arasındaki ilişkiyi tanımlamaktır. Bir bağımlı değişkeni, bir ya da birden fazla bağımsız değişkene bağlı olarak tahmin etmek için kullanılan modellerdir. […] Linear Regresyon Nedir? …

published on 24.01.2021
edited on 11.06.2021

Some time ago, I wanted to display image galleries on my Hugo website and searched for Hugo themes for photography and gallery. I can’t say I find much. Then, I met with a javascript library called nanogallery2 which is using another javascript library as an image viewer lightbox2. In this …

published on 23.01.2021
edited on 11.06.2021

Image processing may seem complicated at first but it’s actually easy and definitely worth implementing since it’ll help you decrease page load times. As you probably know, we don’t want to load raw images with huge sizes for small thumbnails or blog-posts. We want to load a small …

published on 31.12.2020
edited on 26.06.2021

I’ve, recently, published a blog post called Perfect Workflow for Publishing Python Notebooks. I talked about some of the benefits of using Rmarkdown and reticulate. In this post, I’ll try HTML widgets and explain how we can embed those in our blog post using nothing but R. […] 1 …

published on 05.12.2020

Resume A4 is a side project of mine. It’s one page Hugo Theme that allows you to write your resume in YAML format and keep track of it using git. Also, you can publish it online as a static site using GitLab, GitHub Pages, Netlify, or some other service you are familiar with. A few months …

published on 30.11.2020

I’ve been searching for a good workflow for publishing Jupyter or RMarkdown Notebooks as static blog posts. I think I’ve found the optimal solution for my use case. In this post, I’ll explain my workflow and why chose this way with examples. […] In reality my main purpose to …

published on 29.11.2020
edited on 05.12.2020

Plotly is a visualization library that allows us to write code in Python, R, or Julia and generates interactive graphs using Javascript. So, we don’t have to deal with Javascript. You can checkout Plotly gallery, there are interesting works. Anyway, last week, I’ve started learning …