Как выполнить тест Крускала-Уоллиса в Stata

Как выполнить тест Крускала-Уоллиса в Stata

Критерий Крускала-Уоллиса используется для определения наличия статистически значимой разницы между медианами трех или более независимых групп. Он считается непараметрическим эквивалентом однофакторного дисперсионного анализа .

В этом руководстве объясняется, как провести тест Крускала-Уоллиса в Stata.

Как выполнить тест Крускала-Уоллиса в Stata

В этом примере мы будем использовать набор данных переписи , который содержит данные переписи 1980 года для всех пятидесяти штатов США. В наборе данных штаты классифицируются по четырем различным регионам:

  • К северо-востоку
  • Северо-Центральный
  • Юг
  • Запад

Мы проведем тест Крускала-Уоллиса, чтобы определить, одинаков ли средний возраст в этих четырех регионах.

Шаг 1: Загрузите и просмотрите данные.

Сначала загрузите набор данных, введя следующую команду в поле «Команда»:

используйте http://www.stata-press.com/data/r13/census

Получите краткую сводку набора данных с помощью следующей команды:

подвести итог
Обобщение набора данных в Stata

Мы видим, что в этом наборе данных есть 13 различных переменных, но мы будем работать только с двумя — это medage (средний возраст) и регион .

Шаг 2: Визуализируйте данные.

Прежде чем мы выполним тест Крускала-Уоллиса, давайте сначала создадим несколько блочных диаграмм , чтобы визуализировать распределение медианного возраста для каждого из четырех регионов:

Медиа графического окна, более (регион)
Несколько блочных диаграмм на одном графике в Stata

Просто взглянув на диаграммы, мы можем увидеть, что распределения варьируются между регионами. Далее мы проведем тест Крускала-Уоллиса, чтобы увидеть, являются ли эти различия статистически значимыми.

Шаг 3: Проведите тест Крускала-Уоллиса.

Используйте следующий синтаксис для выполнения теста Крускала-Уоллиса:

kwallis переменная_измерения, по (переменная_группировки)

В нашем случае мы будем использовать следующий синтаксис:

kwallis medage, автор(регион)
Вывод Крускала-Уоллиса в Stata

Вот как интерпретировать вывод:

Сводная таблица. В этой таблице показано количество наблюдений по регионам и суммы рангов для каждого региона.

Хи-квадрат со связями: это значение тестовой статистики, которое оказывается равным 17,062.

вероятность: это p-значение, соответствующее тестовой статистике, которая оказывается равной 0,0007. Поскольку это значение меньше 0,05, мы можем отклонить нулевую гипотезу и сделать вывод, что средний возраст не одинаков в четырех регионах.

Шаг 4: Сообщите о результатах.

Наконец, мы хотим сообщить о результатах теста Крускала-Уоллиса. Вот пример того, как это сделать:

Был проведен тест Крускала-Уоллиста, чтобы определить, был ли средний возраст людей одинаковым в следующих четырех регионах США:
  • Северо-восток (n = 9)
  • Северо-Центральный (n = 12)
  • Юг (n = 16)
  • Запад (n = 13)
Тест показал, что средний возраст людей не был одинаковым (X 2 =17,062, p = 0,0007) в четырех регионах. То есть имелась статистически значимая разница в среднем возрасте между двумя или более регионами.
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.