Как рассчитать корреляцию в SAS (с примерами)

Как рассчитать корреляцию в SAS (с примерами)

Одним из способов количественной оценки связи между двумя переменными является использованиекоэффициента корреляции Пирсона , который измеряет линейную связь между двумя переменными .

Он всегда принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

В следующих примерах показано, как использовать proc corr в SAS для расчета коэффициента корреляции между переменными во встроенном наборе данных SAS под названием Fish , который содержит различные измерения для 159 различных рыб, пойманных в озере в Финляндии.

Мы можем использовать proc print для просмотра первых 10 наблюдений из этого набора данных:

/\*view first 10 observations from *Fish* dataset\*/
proc print data =sashelp.Fish ( obs = 10 );

run ;

Пример 1: Корреляция между двумя переменными

Мы можем использовать следующий код для вычисления коэффициента корреляции Пирсона между переменными Высота и Ширина:

/\*calculate correlation coefficient between Height and Width\*/
proc corr data =sashelp.fish;
 var Height Width;

run ;

Первая таблица отображает сводную статистику как для высоты, так и для ширины.

Во второй таблице показан коэффициент корреляции Пирсона между двумя переменными, включая значение p , которое говорит нам, является ли корреляция статистически значимой.

Из вывода мы видим:

  • Коэффициент корреляции Пирсона: 0,79288
  • P-значение: <0,0001

Это говорит нам о наличии сильной положительной корреляции между высотой и шириной и о том, что корреляция является статистически значимой, поскольку значение p меньше α = 0,05.

По теме: Что считается «сильной» корреляцией?

Пример 2: Корреляция между всеми переменными

Мы можем использовать следующий код для вычисления коэффициента корреляции Пирсона между всеми парными комбинациями переменных в наборе данных:

/\*calculate correlation coefficient between all pairwise combinations of variables\*/
proc corr data =sashelp.fish;

run;
корреляционная матрица в SAS

На выходе отображается матрица корреляции , которая содержит коэффициент корреляции Пирсона и соответствующие значения p для каждой попарной комбинации числовых переменных в наборе данных.

Например:

  • Коэффициент корреляции Пирсона между весом и длиной1 составляет 0,91644.
  • Коэффициент корреляции Пирсона между весом и длиной2 составляет 0,91937.
  • Коэффициент корреляции Пирсона между весом и длиной3 составляет 0,92447.

И так далее.

Пример 3. Визуализация корреляции с помощью диаграммы рассеяния

Мы также можем использовать функцию plots для создания диаграммы рассеивания для визуализации корреляции между двумя переменными:

/\*visualize correlation between Height and Width\*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
 var Height Width;

run; 

Из графика видно сильную положительную корреляцию между высотой и шириной. С увеличением высоты увеличивается и ширина.

В верхнем левом углу графика мы также можем видеть общее количество использованных наблюдений, коэффициент корреляции и значение p для коэффициента корреляции.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:

Как создать частотные таблицы в SAS
Как рассчитать описательную статистику в SAS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.