Почему режим важен в статистике?


Мода представляет значение, которое чаще всего встречается в наборе данных.

Набор данных может не иметь режима (если ни одно значение не повторяется), один режим или несколько режимов.

Например, мода в следующем наборе данных равна 19:

Набор данных: 3, 4, 11, 15, 19 , 19 , 19 , 22, 22, 23, 23, 26

Это значение встречается чаще всего.

В статистике мода важна по следующим причинам:

Причина 1 : это позволяет нам узнать, какие значения в наборе данных являются наиболее распространенными.

Причина 2 : это полезно для поиска наиболее часто встречающегося значения в категориальных данных, когда невозможно рассчитать среднее значение и медиану.

Причина 3. Это дает нам представление о том, где находится «центр» набора данных, хотя чаще используются медиана и среднее значение (как мы увидим позже в этой статье).

Следующие примеры иллюстрируют каждую из этих причин на практике.

Причина 1: режим сообщает нам, какое значение является наиболее распространенным

Предположим, у нас есть набор данных со 100 000 строк, содержащих цены продажи домов в Соединенных Штатах:

Предположим, мы используем некоторое статистическое программное обеспечение (например, Excel , R , Python и т. д.) для расчета режима этого набора данных и обнаруживаем, что существует три режима:

  • 280 000 долларов
  • 300 000 долларов
  • 305 000 долларов США

Это немедленно дает нам представление о том, какие цены на жилье чаще всего встречаются в наборе данных.

Вычисление моды также намного быстрее, чем просмотр тысяч строк данных и попытка определить, какие цены на жилье встречаются чаще всего.

Причина 2: режим находит наиболее распространенное значение в категориальных данных

Предположим, у нас есть набор данных с 1000 строк, который сообщает нам цвет автомобиля, принадлежащего людям в определенном районе:

Переменная «цвет» является категориальной переменной , что означает, что значения попадают в категории («красный», «желтый», «черный» и т. д.), поэтому мы не можем вычислить количественное значение, такое как среднее значение или медиана.

Однако мы можем рассчитать моду, потому что она просто представляет наиболее часто встречающееся значение в наборе данных.

Например, мы можем использовать некоторое статистическое программное обеспечение, чтобы определить, что режим этого набора данных — «черный», что говорит нам о том, что наиболее часто встречающийся цвет автомобиля в этом наборе данных — черный.

Причина 3: режим дает нам представление о том, где находится центр набора данных

Мода также считается мерой центральной тенденции , что означает, что она может дать нам представление о том, где находится «центр» набора данных.

Например, предположим, что у нас есть следующий набор данных, который показывает результаты экзаменов 20 разных учеников в классе:

В моде получается 82 — это самая распространенная экзаменационная оценка. Это также оказывается хорошим показателем того, где в этом наборе данных находится «центральное» значение экзаменационного балла.

Однако предположим, что вместо этого у нас есть следующий набор данных экзаменационных баллов:

В этом наборе данных 72 — это оценка экзамена по режиму. Однако это оказывается плохим показателем того, где находится «центральный» результат экзамена.

Средний балл за экзамен составляет 82,9 , а средний балл за экзамен — 82,5 , что дает нам лучшее представление о том, где находится «центральное» значение по сравнению с режимом.

Резюме

Вот краткое изложение основных моментов, сделанных в этой статье:

  • Мода представляет собой значение(я), которое чаще всего встречается в наборе данных.
  • Режим сообщает нам наиболее распространенное значение в категориальных данных, когда нельзя использовать среднее значение и медиану.
  • Режим дает нам представление о том, где находится «центр» набора данных, но он может ввести в заблуждение по сравнению со средним значением или медианой.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о среднем значении, медиане и моде в статистике:

Почему среднее значение важно в статистике?
Почему медиана важна в статистике?
Примеры из реальной жизни: использование среднего, медианы и моды
Когда использовать среднее значение против медианы (с примерами)