Тест Граббса — это статистический тест, который можно использовать для выявления наличия одного выброса в наборе данных. Чтобы использовать этот тест, набор данных, который вы анализируете, должен иметь примерно нормальное распределение и, в идеале, должен иметь не менее 7 наблюдений.
Примечание. Если вы подозреваете, что в наборе данных имеется более одного выброса, вам следует вместо этого использовать обобщенный критерий экстремальных студенческих отклонений для выбросов .
Если вы подозреваете, что максимальное значение в наборе данных является выбросом, статистика теста рассчитывается как:
G = (х макс – х ) / с
Если вы подозреваете, что минимальное значение в наборе данных является выбросом, статистика теста рассчитывается как:
G = ( х – х мин ) / с
И если вы не уверены, является ли максимальное значение или минимальное значение в наборе данных выбросом, и вы хотите выполнить двусторонний тест, тогда статистика теста рассчитывается как:
G = макс | х я - х | / с
где x — выборочное среднее, s — выборочное стандартное отклонение.
Критическое значение для теста рассчитывается как:
G критический = (n-1)t критический / √[n(n- 2 + t2 критический )]
где t критическое — критическое значение t-распределения с n-2 степенями свободы, а уровень значимости равен α/n для одностороннего теста и α/(2n) для двустороннего теста.
Пример: тест Граббса в Excel
Определите, является ли значение 60 выбросом в следующем наборе данных:
![](https://www.codecamp.ru/content/images/2020/01/grubbs1.jpg)
Шаг 1: Во-первых, нам нужно убедиться, что данные примерно нормально распределены. Для этого мы можем создать гистограмму, чтобы убедиться, что распределение примерно имеет колоколообразную форму. На следующем снимке экрана показано, как создать гистограмму в Excel с помощью Data Analysis ToolPak :
![](https://www.codecamp.ru/content/images/2020/01/grubbs2.jpg)
Из гистограммы видно, что данные примерно нормально распределены. Это означает, что мы можем пойти дальше и провести тест Граббса.
![Гистограмма в Excel](https://www.codecamp.ru/content/images/2020/01/grubbs3.jpg)
Шаг 2: Затем мы проведем тест Граббса, чтобы определить, действительно ли значение 60 является выбросом в наборе данных. На приведенном ниже снимке экрана показаны формулы, которые можно использовать для проведения теста Граббса:
![](https://www.codecamp.ru/content/images/2020/01/grubbs4.jpg)
Статистика теста G в ячейке D4 равна 3,603219 .
Критическое значение G Critical в ячейке D11 равно 2,556581.Поскольку тестовая статистика больше критического значения, это означает, что значение 60 действительно является выбросом в этом наборе данных.
Что делать, если обнаружен выброс
Если тест Граббса идентифицирует выброс в вашем наборе данных, у вас есть несколько вариантов:
- Дважды проверьте, чтобы убедиться, что значение не является опечаткой или ошибкой ввода данных. Иногда значения, которые отображаются как выбросы в наборах данных, являются просто опечатками, сделанными человеком при вводе данных. Вернитесь и убедитесь, что значение было введено правильно, прежде чем принимать какие-либо дальнейшие решения.
- Присвойте новое значение выбросу.Если выброс окажется результатом опечатки или ошибки ввода данных, вы можете решить присвоить ему новое значение, например, среднее значение или медиану набора данных.
- Удалите выброс. Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ.
Независимо от того, что вы решите сделать с выбросом, обязательно запишите его, когда будете представлять окончательные выводы своего анализа.