Почему среднее значение важно в статистике?

Почему среднее значение важно в статистике?

Среднее значение набора данных представляет собой среднее значение набора данных. Он рассчитывается как:

Среднее значение = Σx i / n

куда:

  • Σ: символ, означающий «сумма».
  • x i : i -е наблюдение в наборе данных
  • n: общее количество наблюдений в наборе данных.

Например, предположим, что у нас есть следующий набор данных с 11 наблюдениями:

Набор данных: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

Среднее значение набора данных рассчитывается как:

Среднее = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54

В статистике среднее значение важно по следующим причинам:

1. Среднее значение дает нам представление о том, где находится «центр» набора данных.

2. Из-за того, как оно рассчитывается, среднее значение несет часть информации из каждого наблюдения в наборе данных.

Следующий пример иллюстрирует обе эти причины.

Пример: вычисление среднего значения набора данных

Предположим, у нас есть набор данных, содержащий цену продажи 10 000 различных домов в определенном городе.

Вместо того, чтобы смотреть на тысячи строк необработанных данных , мы можем рассчитать среднее значение, чтобы быстро понять среднюю цену продажи домов в этом городе.

Зная, что средняя цена продажи составляет 297 000 долларов, мы получаем представление о том, по какой цене продается «типичный» дом в этом городе.

Это единственное значение среднего гораздо легче интерпретировать по сравнению с просмотром всех строк необработанных данных.

А поскольку для расчета среднего значения использовалась цена продажи каждого отдельного дома, мы могли бы умножить среднюю цену продажи на общее количество домов, чтобы найти общую цену продажи всех домов в этом городе:

  • Общая цена продажи всех домов = Средняя цена продажи * Количество домов
  • Общая цена продажи всех домов = $297 000 * 10 000.
  • Общая цена продажи всех домов = 2 970 000 000 долларов США.

Мы видим, что общая цена продажи всех домов в этом городе составляет 2,97 миллиарда долларов.

Когда использовать среднее

При анализе наборов данных нам часто интересно понять, где находится центральное значение.

В статистике есть две общие метрики, которые мы используем для измерения центра набора данных:

  • Среднее : среднее значение в наборе данных.
  • Медиана : среднее значение в наборе данных.

Среднее значение является наиболее распространенным способом измерения центра набора данных, но на самом деле оно может ввести в заблуждение в следующих ситуациях:

Чтобы проиллюстрировать это, рассмотрим следующие два примера.

Пример 1: вычисление среднего значения асимметричного распределения

Рассмотрим следующее распределение заработной платы жителей определенного города:

Большие зарплаты в правой части распределения отодвигают среднее значение от центра распределения.

Таким образом, медиана лучше отражает «типичную» заработную плату резидента, чем среднее значение, поскольку распределение смещено вправо.

В этом конкретном примере средняя зарплата составляет 47 000 долларов, а медианная зарплата — 32 000 долларов.

Таким образом, медиана намного больше отражает типичную зарплату в этом городе.

Пример 2: Расчет среднего значения при наличии выбросов

Рассмотрим следующую диаграмму, которая показывает площадь домов на определенной улице:

Когда использовать среднее значение против медианы

На среднее значение сильно влияет пара очень больших домов, а на медиану - нет.

Мы видим, что медиана лучше отражает «типичную» площадь дома на этой улице по сравнению со средним значением, потому что на нее не влияют экстремальные значения выбросов.

Резюме

Вот краткое изложение основных выводов из этой статьи:

  • Среднее значение представляет собой среднее значение в наборе данных.
  • Среднее значение важно, потому что оно дает нам представление о том, где находится центральное значение в наборе данных.
  • Среднее также важно, потому что оно несет часть информации из каждого наблюдения в наборе данных.
  • Среднее значение может вводить в заблуждение, если набор данных искажен или содержит выбросы. В этих сценариях медиана дает более точное представление о том, где находится «центр» набора данных.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о других описательных статистических данных:

Почему медиана важна в статистике?
Почему стандартное отклонение важно в статистике?
Когда использовать среднее значение против медианы

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.