Критерий Харка-Бера — это критерий согласия, который определяет, имеют ли выборочные данные асимметрию и эксцесс, соответствующие нормальному распределению .
Статистика теста Харка-Бера всегда является положительным числом, и если она далека от нуля, это указывает на то, что выборочные данные не имеют нормального распределения.
Тестовая статистика JB определяется как:
JB = [(n-k+1) / 6] * [S 2 + (0,25 * (C-3) 2 )]
где n — количество наблюдений в выборке, k — количество регрессоров (k=1, если не используется в контексте регрессии), S — асимметрия выборки, а C — эксцесс выборки.
При нулевой гипотезе нормальности JB ~ X 2 (2)
В этом руководстве объясняется, как провести тест Харке-Бера в R.
Тест Харка-Бера в R
Чтобы провести тест Жарка-Бера для образца набора данных, мы можем использовать пакет tseries :
#install (if not already installed) and load *tseries* package
if(!require(tseries)){install.packages('tseries')}
#generate a list of 100 normally distributed random variables
dataset <- rnorm(100)
#conduct Jarque-Bera test
jarque.bera.test(dataset)
Это генерирует следующий вывод:
Это говорит нам о том, что статистика теста равна 0,67446, а p-значение теста равно 0,7137. В этом случае мы не смогли бы отвергнуть нулевую гипотезу о нормальном распределении данных.
Этот результат не должен удивлять, поскольку сгенерированный нами набор данных состоит из 100 случайных величин, которые подчиняются нормальному распределению.
Вместо этого рассмотрим, если бы мы создали набор данных, состоящий из списка из 100 равномерно распределенных случайных величин:
#install (if not already installed) and load *tseries* package
if(!require(tseries)){install.packages('tseries')}
#generate a list of 100 uniformly distributed random variables
dataset <- runif(100)
#conduct Jarque-Bera test
jarque.bera.test(dataset)
Это генерирует следующий вывод:
Это говорит нам о том, что статистика теста равна 8,0807, а p-значение теста равно 0,01759. В этом случае мы бы отклонили нулевую гипотезу о нормальном распределении данных. У нас есть достаточно доказательств, чтобы сказать, что данные в этом примере не распределены нормально.
Этот результат не должен удивлять, поскольку сгенерированный нами набор данных состоит из 100 случайных величин, которые имеют равномерное распределение. В конце концов, ожидается, что данные будут распределены равномерно, а не нормально.