Когда использовать среднее значение против медианы (с примерами)

Когда использовать среднее значение против медианы (с примерами)

Среднее значение набора данных представляет собой среднее значение набора данных. Он рассчитывается как:

Среднее значение = Σx i / n

куда:

  • Σ: символ, означающий «сумма».
  • x i : i -е наблюдение в наборе данных
  • n: общее количество наблюдений в наборе данных.

Медиана представляет среднее значение набора данных. Он рассчитывается путем упорядочивания всех наблюдений в наборе данных от наименьшего к наибольшему, а затем определения среднего значения.

Например, предположим, что у нас есть следующий набор данных с 11 наблюдениями :

Набор данных: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

Среднее значение набора данных рассчитывается как:

Среднее = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

Медиана набора данных — это значение прямо посередине, которое оказывается равным 8:

3, 4, 4, 6, 7, 8 , 12, 13, 15, 16, 17

Как среднее, так и медиана оценивают, где находится центр набора данных. Однако, в зависимости от характера данных, либо среднее, либо медиана могут быть более полезными для описания центра набора данных.

Когда использовать среднее

Лучше всего использовать среднее значение для описания центра набора данных, когда распределение в основном симметрично и нет выбросов.

Например, предположим, что у нас есть следующее распределение, показывающее зарплаты жителей определенного города:

Поскольку это распределение довольно симметрично (если разделить его пополам, каждая половина будет выглядеть примерно одинаковой) и в нем нет выбросов, мы можем использовать среднее значение для описания центра этого набора данных.

Среднее значение получается $63 000, что находится примерно в центре распределения:

Когда использовать медиану

Лучше всего использовать медиану, когда распределение либо асимметрично , либо присутствуют выбросы.

Искаженные данные:

Когда распределение асимметрично, медиана лучше описывает центр распределения, чем среднее значение.

Например, рассмотрим следующее распределение заработной платы жителей определенного города:

Медиана лучше отражает «типичную» зарплату резидента, чем среднее значение. Это связано с тем, что большие значения в хвостовой части распределения имеют тенденцию смещать среднее значение от центра к длинному хвосту.

В этом примере среднее значение говорит нам, что типичный человек зарабатывает около 47 000 долларов в год, а медиана говорит нам, что типичный человек зарабатывает всего около 32 000 долларов в год, что гораздо более характерно для типичного человека.

Выбросы:

Медиана также лучше фиксирует центральное положение распределения, когда в данных присутствуют выбросы. Например, рассмотрим следующую диаграмму, которая показывает площадь домов на определенной улице:

Когда использовать среднее значение против медианы

На среднее значение сильно влияет пара очень больших домов, а на медиану - нет. Таким образом, медиана лучше отражает «типичную» площадь дома на этой улице по сравнению со средним значением.

Резюме

В итоге:

  • И среднее значение, и медиана могут использоваться для описания того, где находится «центр» набора данных.
  • Лучше всего использовать среднее, когда распределение значений данных симметрично и нет явных выбросов.
  • Лучше всего использовать медиану, когда распределение значений данных асимметрично или когда есть явные выбросы.

Дополнительные ресурсы

Как выбросы влияют на среднее значение?
Как оценить среднее значение и медиану любой гистограммы
Как найти среднее значение и медиану графиков ствола и листа

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.