В статистике корреляция относится к силе и направлению связи между двумя переменными. Значение коэффициента корреляции может варьироваться от -1 до 1, где -1 указывает на полную отрицательную связь, 0 указывает на отсутствие связи и 1 указывает на полную положительную связь.
Существует три распространенных способа измерения корреляции:
Корреляция Пирсона: используется для измерения корреляции между двумя непрерывными переменными. (например, рост и вес)
Корреляция Спирмена: используется для измерения корреляции между двумя ранжированными переменными. (например, оценка балла учащегося на экзамене по математике и оценка его оценки на экзамене по естественным наукам в классе)
Корреляция Кендалла: используется, когда вы хотите использовать корреляцию Спирмена, но размер выборки мал и имеется много связанных рангов.
В этом руководстве объясняется, как найти все три типа корреляций в Stata.
Загрузка данных
Для каждого из следующих примеров мы будем использовать набор данных с именем auto.Вы можете загрузить этот набор данных, введя следующее в поле Command:
используйте http://www.stata-press.com/data/r13/auto
Мы можем быстро просмотреть набор данных, введя следующее в поле «Команда»:
подвести итог

Мы видим, что всего в наборе данных 12 переменных.
Как найти корреляцию Пирсона в Stata
Мы можем найтикоэффициент корреляции Пирсона между весом и длиной переменных с помощью команды pwcorr :
pwcorr вес длина

Коэффициент корреляции Пирсона между этими двумя переменными равен 0,9460.Чтобы определить, является ли этот коэффициент корреляции значительным, мы можем найти значение p с помощью команды sig :
pwcorr длина веса, сиг

Значение p равно 0,000.Поскольку этот показатель меньше 0,05, корреляция между этими двумя переменными является статистически значимой.
Чтобы найти коэффициент корреляции Пирсона для нескольких переменных, просто введите список переменных после команды pwcorr :
pwcorr вес длина перемещение, сиг

Вот как интерпретировать вывод:
- Пирсон Корреляция между весом и длиной = 0,9460 | р-значение = 0,000
- Корреляция Пирсона между весом и водоизмещением = 0,8949 | р-значение = 0,000
- Пирсон Корреляция между перемещением и длиной = 0,8351 | р-значение = 0,000
Как найти корреляцию Спирмена в Stata
Мы можем найти коэффициент корреляции Спирмена между переменными trunk и rep78 с помощью команды spearman :
ствол копейщика rep78

Вот как интерпретировать вывод:
- Количество наблюдений: это количество парных наблюдений, используемых для расчета коэффициента корреляции Спирмена. Поскольку для переменной rep78 были пропущены некоторые значения, Stata использовала только 69 (а не полные 74) попарных наблюдения.
- Ро Спирмена: это коэффициент корреляции Спирмена. В данном случае это -0,2235, что указывает на наличие отрицательной корреляции между двумя переменными. При увеличении одного другое имеет тенденцию к уменьшению.
- Prob > |t|: это p-значение, связанное с проверкой гипотезы. В этом случае значение p равно 0,0649, что указывает на отсутствие статистически значимой корреляции между двумя переменными при α = 0,05.
Мы можем найти коэффициент корреляции Спирмена для нескольких переменных, просто введя дополнительные переменные после команды Спирмена.Мы можем найти коэффициент корреляции и соответствующее значение p для каждой парной корреляции с помощью команды stats(rho p) :
ствол копейщика rep78 gear_ratio, stats(rho p)

Вот как интерпретировать вывод:
- Корреляция Спирмена между туловищем и числом повторений78 = -0,2235 | р-значение = 0,0649
- Корреляция Спирмена между стволом и gear_ratio = -0,5187 | р-значение = 0,0000
- Корреляция Спирмена между gear_ratio и rep78 = 0,4275 | р-значение = 0,0002
Как найти корреляцию Кендалла в статистике
Мы можем найти коэффициент корреляции Кендалла между переменными trunk и rep78 с помощью команды ktau :
ктау багажник реп78

Вот как интерпретировать вывод:
- Количество наблюдений: это количество парных наблюдений, используемых для расчета коэффициента корреляции Кендалла. Поскольку для переменной rep78 были пропущены некоторые значения, Stata использовала только 69 (а не полные 74) попарных наблюдения.
- Тау-b Кендалла: это коэффициент корреляции Кендалла между двумя переменными. Обычно мы используем это значение вместо tau-a, потому что tau-b вносит коррективы в связи. В этом случае tau-b = -0,1752, что указывает на отрицательную корреляцию между двумя переменными.
- Prob > |z|: это p-значение, связанное с проверкой гипотезы. В этом случае значение p равно 0,0662, что указывает на отсутствие статистически значимой корреляции между двумя переменными при α = 0,05.
Мы можем найти коэффициент корреляции Кендалла для нескольких переменных, просто введя дополнительные переменные после команды ktau.Мы можем найти коэффициент корреляции и соответствующее значение p для каждой парной корреляции с помощью команды stats(taub p) :
ktau trunk rep78 gear_ratio, stats(taub p)

- Корреляция Кендалла между туловищем и числом повторений78 = -0,1752 | р-значение = 0,0662
- Корреляция Кендалла между стволом и gear_ratio = -0,3753 | р-значение = 0,0000
- Корреляция Кендалла между gear_ratio и rep78 = 0,3206 | р-значение = 0,0006