Q-тест Диксона , часто называемый просто Q-тестом , представляет собой статистический тест, который используется для обнаружения выбросов в наборе данных.
Статистика теста для теста Q выглядит следующим образом:
Q = | х а – х б | / Р
где x a — предполагаемый выброс, x b — ближайшая к x a точка данных, а R — диапазон набора данных. В большинстве случаев x a является максимальным значением в наборе данных, но также может быть и минимальным значением.
Важно отметить, что тест Q обычно выполняется на небольших наборах данных, и тест предполагает, что данные распределены нормально. Также важно отметить, что тест Q следует проводить только один раз для данного набора данных.
Как провести Q-тест Диксона вручную
Предположим, у нас есть следующий набор данных:
1, 3, 5, 7, 8, 9, 13, 25
Мы можем следовать стандартной пятиэтапной процедуре проверки гипотез , чтобы вручную провести Q-тест Диксона, чтобы определить, является ли максимальное значение в этом наборе данных выбросом:
Шаг 1. Сформулируйте гипотезы.
Нулевая гипотеза (H0): максимум не является выбросом.
Альтернативная гипотеза: (Ha): максимальное значение является выбросом.
Шаг 2. Определите уровень значимости для использования.
Обычно выбираются значения 0,1, 0,05 и 0,01. Для этого примера мы будем использовать уровень значимости 0,05.
Шаг 3. Найдите тестовую статистику.
Q = | х а – х б | / Р
В этом случае наше максимальное значение равно x a = 25, наше ближайшее ближайшее значение равно x b = 13, а наш диапазон R = 25 – 1 = 24.
Таким образом, Q = |25 – 13| / 24 = 0,5 .
Затем мы можем сравнить эту тестовую статистику с критическими значениями Q-теста, которые показаны ниже для различных размеров выборки (n) и уровней достоверности:
п 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372
Критическое значение для размера выборки 8 и уровня достоверности 95% составляет 0,526 .
Шаг 4. Отклонить или не отклонить нулевую гипотезу.
Поскольку наша тестовая статистика Q (0,5) меньше критического значения (0,526), мы не можем отвергнуть нулевую гипотезу.
Шаг 5. Интерпретируйте результаты.
Поскольку нам не удалось отвергнуть нулевую гипотезу, мы заключаем, что максимальное значение 25 не является выбросом в этом наборе данных.
Как провести Q-тест Диксона в R
Чтобы провести Q-тест Диксона для того же набора данных в R, мы можем использовать функцию dixon.test() из библиотеки выбросов , которая использует следующий синтаксис:
dixon.test(данные, тип = 10, наоборот = ЛОЖЬ)
- data: числовой вектор значений данных
- тип: тип формулы, используемой для проведения тестовой статистики Q. Установите значение 10, чтобы использовать формулу, описанную ранее.
- наоборот: если FALSE, тест определяет, является ли максимальное значение выбросом. Если TRUE, тест определяет, является ли минимальное значение выбросом. Это FALSE по умолчанию.
Примечание.Полную документацию по dixon.test() можно найти здесь .
В следующем коде показано, как провести тест Диксона Q, чтобы определить, является ли максимальное значение в наборе данных выбросом.
#load the *outliers* library
library(outliers)
#create data
data <- c(1, 3, 5, 7, 8, 9, 13, 25)
#conduct Dixon's Q Test
dixon.test(data, type = 10)
# Dixon test for outliers
#
#data: data
#Q = 0.5, p-value = 0.06913
#alternative hypothesis: highest value 25 is an outlier
Из вывода мы видим, что статистика теста равна Q = 0,5 , а соответствующее значение p равно 0,06913.Таким образом, мы не можем отвергнуть нулевую гипотезу на уровне значимости 0,05 и делаем вывод, что 25 не является выбросом. Это соответствует результату, который мы получили вручную.