Как создать корреляционную матрицу в Stata


В статистике нас часто интересует понимание взаимосвязи между двумя переменными. Например, мы можем захотеть понять взаимосвязь между количеством часов, отработанных студентом, и полученными им экзаменационными баллами.

Одним из способов количественной оценки этой взаимосвязи является использованиекоэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

Но в некоторых случаях мы хотим понять корреляцию между более чем одной парой переменных. В этих случаях мы можем создать матрицу корреляции , представляющую собой квадратную таблицу, которая показывает коэффициенты корреляции между несколькими попарными комбинациями переменных.

В этом уроке мы объясним, как создать матрицу корреляции в Stata.

Как создать корреляционную матрицу в Stata

Команду corr можно использовать для создания корреляционной матрицы для определенного набора данных в Stata.

Чтобы проиллюстрировать это, давайте загрузим данные переписи 1980 года в Stata, введя следующее в поле команды:

используйте http://www.stata-press.com/data/r13/census13

Затем мы можем получить краткую сводку набора данных, введя следующее в поле команды:

подвести итог

Получается следующая таблица:

Мы видим, что набор данных содержит девять различных переменных. Чтобы создать матрицу корреляции для каждой попарной комбинации переменных в наборе данных, мы можем ввести следующее в поле команды:

корр

Это дает следующую корреляционную матрицу:

Числа, показанные в таблице, представляют собой коэффициенты корреляции Пирсона для каждой попарной комбинации переменных. Например, корреляция между количеством пользователей и состоянием составляет -0,0540.Это указывает на то, что эти две переменные имеют небольшую отрицательную корреляцию.

Обратите внимание, что корреляция по диагоналям таблицы равна 1,0000, поскольку каждая переменная идеально коррелирует сама с собой.

Вы также можете создать корреляционную матрицу только для определенного подмножества переменных в наборе данных, указав переменные после команды corr.Например, вот как создать корреляционную матрицу только для переменных pop , medage и region :

корр поп-мед региона

Это дает следующую корреляционную матрицу только для этих трех переменных:

Также можно поставить звездочку рядом с коэффициентами корреляции, которые являются статистически значимыми на определенном уровне значимости, с помощью команды pwcorr (которая дает тот же результат, что и corr ) вместе с командой star() .

Например, следующий код создает матрицу корреляции для каждой переменной в наборе данных переписи и помещает звездочку рядом с коэффициентами корреляции, которые статистически значимы при α = 0,05:

pwcorr, звезда (.05)

Обратите внимание, что несколько коэффициентов корреляции в таблице статистически значимы при α = 0,05. Мы могли бы установить α как любое число, которое мы хотели бы, но обычно выбирают 0,01, 0,05 и 0,10.

В общем, чем ниже мы устанавливаем значение α, тем меньше коэффициентов корреляции будет статистически значимым. Например, предположим, что мы установили α = 0,01.

pwcorr, звезда (.01)

Обратите внимание, как меньше коэффициентов корреляции имеют звездочку рядом с ними.