Как выбросы влияют на среднее значение?

Как выбросы влияют на среднее значение?

В статистике среднее значение набора данных — это среднее значение. Это полезно знать, потому что это дает нам представление о том, где находится «центр» набора данных. Он рассчитывается по простой формуле:

среднее значение = (сумма наблюдений) / (количество наблюдений)

Например, предположим, что у нас есть следующий набор данных:

[1, 4, 5, 6, 7]

Среднее значение набора данных составляет (1 + 4 + 5 + 6 + 7) / (5) = 4,6.

Но хотя среднее полезно и его легко вычислить, у него есть один недостаток: на него могут повлиять выбросы.В частности, чем меньше набор данных, тем больше выброс может повлиять на среднее значение.

Чтобы проиллюстрировать это, рассмотрим следующий классический пример:

В баре сидят десять мужчин. Средний доход десяти мужчин составляет 50 000 долларов. Внезапно один человек выходит, и входит Билл Гейтс. Теперь средний доход десяти мужчин в баре составляет 40 миллионов долларов.

Этот пример показывает, как один выброс (Билл Гейтс) может сильно повлиять на среднее значение.

Маленькие и большие выбросы

Выброс может повлиять на среднее значение, будучи необычно маленьким или необычно большим. В предыдущем примере у Билла Гейтса был необычно большой доход, из-за чего среднее значение вводило в заблуждение.

Однако необычно маленькое значение также может повлиять на среднее значение. Чтобы проиллюстрировать это, рассмотрим следующий пример:

Десять студентов сдают экзамен и получают следующие баллы:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Средний балл 84,6 .
Однако, если мы удалим оценку «0» из набора данных, то средняя оценка станет равной 94 .

Одна необычно низкая оценка одного учащегося снижает среднее значение для всего набора данных.

Размер выборки и выбросы

Чем меньше размер выборки набора данных, тем больше выброс может повлиять на среднее значение.

Например, предположим, что у нас есть набор данных из 100 экзаменационных баллов, где все учащиеся набрали не менее 90 баллов или выше, за исключением одного учащегося, набравшего ноль:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

Среднее значение оказывается равным 93,18.Если бы мы удалили «0» из набора данных, среднее значение было бы 94,12.Это относительно небольшая разница. Это показывает, что даже экстремальный выброс имеет небольшой эффект, только если набор данных достаточно велик.

Как обращаться с выбросами

Если вы беспокоитесь о том, что в вашем наборе данных присутствует выброс, у вас есть несколько вариантов:

  • Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.
  • Присвойте новое значение выбросу.Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.
  • Удалите выброс. Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

Используйте медиану

Другой способ найти «центр» набора данных — использовать медиану , которую можно найти, расположив все отдельные значения в наборе данных от наименьшего к наибольшему и найдя среднее значение.

Благодаря способу расчета медиана меньше подвержена влиянию выбросов и лучше фиксирует центральное положение распределения при наличии выбросов.

Например, рассмотрим следующую диаграмму, которая показывает площадь домов в определенном районе:

На среднее значение сильно влияет пара очень больших домов, а на медиану - нет. Таким образом, медиана лучше отражает «типичную» площадь дома в этом районе по сравнению со средним значением.

Дальнейшее чтение:

Показатели центральной тенденции — среднее значение, медиана и мода
Тест Диксона Q для обнаружения выбросов
Калькулятор выбросов

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.