Руководство по тесту Бартлетта на сферичность


Тест Бартлетта на сферичность сравнивает наблюдаемую корреляционную матрицу с единичной матрицей. По сути, он проверяет, есть ли определенная избыточность между переменными, которые мы можем суммировать с помощью нескольких факторов.

Нулевая гипотеза теста состоит в том, что переменные ортогональны, т.е. не коррелированы. Альтернативная гипотеза состоит в том, что переменные не являются ортогональными, т. е. они достаточно коррелированы, чтобы корреляционная матрица значительно отличалась от единичной матрицы.

Этот тест часто выполняется до того, как мы используем метод сокращения данных, такой как анализ основных компонентов или факторный анализ, чтобы убедиться, что метод сокращения данных действительно может сжимать данные осмысленным образом.

Примечание. Тест Бартлетта на сферичность — это не то же самое , что Тест Бартлетта на равенство дисперсий.Это распространенная путаница, поскольку у них похожие имена.

Матрица корреляции против матрицы идентичности

Матрица корреляции — это просто матрица значений, которая показывает коэффициенты корреляции между переменными. Например, следующая матрица корреляции показывает коэффициенты корреляции между различными переменными для профессиональных баскетбольных команд.

Пример корреляционной матрицы

Коэффициенты корреляции могут варьироваться от -1 до 1. Чем дальше значение от 0, тем выше корреляция между двумя переменными.

Единичная матрица — это матрица, в которой все значения по диагонали равны 1, а все остальные значения равны 0.

Пример изображения матрицы идентичности

В этом случае, если числа в этой матрице представляют собой коэффициенты корреляции, это означает, что каждая переменная совершенно ортогональна (т.е. «некоррелирована») любой другой переменной, и, таким образом, метод сокращения данных, такой как PCA или факторный анализ, не сможет «сжать» данные любым осмысленным способом.

Таким образом, причина, по которой мы проводим тест Бартлетта на сферичность, заключается в том, чтобы убедиться, что матрица корреляции переменных в нашем наборе данных значительно отличается от матрицы идентичности, чтобы мы знали, что метод сокращения данных подходит для использования.

Если значение p из теста сферичности Бартлетта ниже выбранного нами уровня значимости (обычно выбираются 0,10, 0,05 и 0,01), то наш набор данных подходит для метода сокращения данных.

Как провести тест Бартлетта на сферичность в R

Чтобы провести тест Бартлетта на сферичность в R, мы можем использовать функцию cortest.bartlett() из библиотеки psych.Общий синтаксис этой функции следующий:

cortest.bartlett(R, n)

  • R: корреляционная матрица набора данных
  • n: размер выборки набора данных

Следующий код иллюстрирует, как провести этот тест на созданном нами поддельном наборе данных:

#make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
# A B C
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

# A B C
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

Статистика теста хи-квадрат равна 5,252329, а соответствующее значение p равно 0,1542258, что не меньше нашего уровня значимости (давайте используем 0,05). Таким образом, эти данные, вероятно, не подходят для PCA или факторного анализа.

Проще говоря, три переменные в нашем наборе данных довольно некоррелированы, поэтому методу сокращения данных, такому как PCA или факторный анализ, будет трудно сжать эти переменные в линейные комбинации, которые могут уловить значительную дисперсию, присутствующую в данных.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.