Мода представляет значение, которое чаще всего встречается в наборе данных.
Набор данных может не иметь режима (если ни одно значение не повторяется), один режим или несколько режимов.
Например, мода в следующем наборе данных равна 19:
Набор данных: 3, 4, 11, 15, 19 , 19 , 19 , 22, 22, 23, 23, 26
Это значение встречается чаще всего.
В статистике мода важна по следующим причинам:
Причина 1 : это позволяет нам узнать, какие значения в наборе данных являются наиболее распространенными.
Причина 2 : это полезно для поиска наиболее часто встречающегося значения в категориальных данных, когда невозможно рассчитать среднее значение и медиану.
Причина 3. Это дает нам представление о том, где находится «центр» набора данных, хотя чаще используются медиана и среднее значение (как мы увидим позже в этой статье).
Следующие примеры иллюстрируют каждую из этих причин на практике.
Причина 1: режим сообщает нам, какое значение является наиболее распространенным
Предположим, у нас есть набор данных со 100 000 строк, содержащих цены продажи домов в Соединенных Штатах:
Предположим, мы используем некоторое статистическое программное обеспечение (например, Excel , R , Python и т. д.) для расчета режима этого набора данных и обнаруживаем, что существует три режима:
- 280 000 долларов
- 300 000 долларов
- 305 000 долларов США
Это немедленно дает нам представление о том, какие цены на жилье чаще всего встречаются в наборе данных.
Вычисление моды также намного быстрее, чем просмотр тысяч строк данных и попытка определить, какие цены на жилье встречаются чаще всего.
Причина 2: режим находит наиболее распространенное значение в категориальных данных
Предположим, у нас есть набор данных с 1000 строк, который сообщает нам цвет автомобиля, принадлежащего людям в определенном районе:
Переменная «цвет» является категориальной переменной , что означает, что значения попадают в категории («красный», «желтый», «черный» и т. д.), поэтому мы не можем вычислить количественное значение, такое как среднее значение или медиана.
Однако мы можем рассчитать моду, потому что она просто представляет наиболее часто встречающееся значение в наборе данных.
Например, мы можем использовать некоторое статистическое программное обеспечение, чтобы определить, что режим этого набора данных — «черный», что говорит нам о том, что наиболее часто встречающийся цвет автомобиля в этом наборе данных — черный.
Причина 3: режим дает нам представление о том, где находится центр набора данных
Мода также считается мерой центральной тенденции , что означает, что она может дать нам представление о том, где находится «центр» набора данных.
Например, предположим, что у нас есть следующий набор данных, который показывает результаты экзаменов 20 разных учеников в классе:
В моде получается 82 — это самая распространенная экзаменационная оценка. Это также оказывается хорошим показателем того, где в этом наборе данных находится «центральное» значение экзаменационного балла.
Однако предположим, что вместо этого у нас есть следующий набор данных экзаменационных баллов:
В этом наборе данных 72 — это оценка экзамена по режиму. Однако это оказывается плохим показателем того, где находится «центральный» результат экзамена.
Средний балл за экзамен составляет 82,9 , а средний балл за экзамен — 82,5 , что дает нам лучшее представление о том, где находится «центральное» значение по сравнению с режимом.
Резюме
Вот краткое изложение основных моментов, сделанных в этой статье:
- Мода представляет собой значение(я), которое чаще всего встречается в наборе данных.
- Режим сообщает нам наиболее распространенное значение в категориальных данных, когда нельзя использовать среднее значение и медиану.
- Режим дает нам представление о том, где находится «центр» набора данных, но он может ввести в заблуждение по сравнению со средним значением или медианой.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию о среднем значении, медиане и моде в статистике:
Почему среднее значение важно в статистике?
Почему медиана важна в статистике?
Примеры из реальной жизни: использование среднего, медианы и моды
Когда использовать среднее значение против медианы (с примерами)