Как выполнить тест Крускала-Уоллиса в Stata


Критерий Крускала-Уоллиса используется для определения наличия статистически значимой разницы между медианами трех или более независимых групп. Он считается непараметрическим эквивалентом однофакторного дисперсионного анализа .

В этом руководстве объясняется, как провести тест Крускала-Уоллиса в Stata.

Как выполнить тест Крускала-Уоллиса в Stata

В этом примере мы будем использовать набор данных переписи , который содержит данные переписи 1980 года для всех пятидесяти штатов США. В наборе данных штаты классифицируются по четырем различным регионам:

  • К северо-востоку
  • Северо-Центральный
  • Юг
  • Запад

Мы проведем тест Крускала-Уоллиса, чтобы определить, одинаков ли средний возраст в этих четырех регионах.

Шаг 1: Загрузите и просмотрите данные.

Сначала загрузите набор данных, введя следующую команду в поле «Команда»:

используйте http://www.stata-press.com/data/r13/census

Получите краткую сводку набора данных с помощью следующей команды:

подвести итог

Мы видим, что в этом наборе данных есть 13 различных переменных, но мы будем работать только с двумя — это medage (средний возраст) и регион .

Шаг 2: Визуализируйте данные.

Прежде чем мы выполним тест Крускала-Уоллиса, давайте сначала создадим несколько блочных диаграмм , чтобы визуализировать распределение медианного возраста для каждого из четырех регионов:

Медиа графического окна, более (регион)

Просто взглянув на диаграммы, мы можем увидеть, что распределения варьируются между регионами. Далее мы проведем тест Крускала-Уоллиса, чтобы увидеть, являются ли эти различия статистически значимыми.

Шаг 3: Проведите тест Крускала-Уоллиса.

Используйте следующий синтаксис для выполнения теста Крускала-Уоллиса:

kwallis переменная_измерения, по (переменная_группировки)

В нашем случае мы будем использовать следующий синтаксис:

kwallis medage, автор(регион)

Вот как интерпретировать вывод:

Сводная таблица. В этой таблице показано количество наблюдений по регионам и суммы рангов для каждого региона.

Хи-квадрат со связями: это значение тестовой статистики, которое оказывается равным 17,062.

вероятность: это p-значение, соответствующее тестовой статистике, которая оказывается равной 0,0007. Поскольку это значение меньше 0,05, мы можем отклонить нулевую гипотезу и сделать вывод, что средний возраст не одинаков в четырех регионах.

Шаг 4: Сообщите о результатах.

Наконец, мы хотим сообщить о результатах теста Крускала-Уоллиса. Вот пример того, как это сделать:

Был проведен тест Крускала-Уоллиста, чтобы определить, был ли средний возраст людей одинаковым в следующих четырех регионах США:
  • Северо-восток (n = 9)
  • Северо-Центральный (n = 12)
  • Юг (n = 16)
  • Запад (n = 13)
Тест показал, что средний возраст людей не был одинаковым (X 2 =17,062, p = 0,0007) в четырех регионах. То есть имелась статистически значимая разница в среднем возрасте между двумя или более регионами.