Как выполнять многомерные тесты на нормальность в Python


Когда мы хотим проверить, нормально ли распределена одна переменная, мы можем создать График QQ для визуализации распределения, или мы можем выполнить формальный статистический тест, такой как тест Андерсона Дарлинга или тест Харка-Бера .

Однако, когда мы хотим проверить, нормально ли распределяются несколько переменных как группы, мы должны выполнить многомерный тест на нормальность .

В этом руководстве объясняется, как выполнить многомерный тест нормальности Хенце-Цирклера для заданного набора данных в Python.

Связанный: если мы хотим идентифицировать выбросы в многомерной настройке, мы можем использовать расстояние Махаланобиса .

Пример: Многомерный тест нормальности Хенце-Цирклера в Python

Многомерный тест нормальности Хенце-Цирклера определяет, соответствует ли группа переменных многомерному нормальному распределению. Нулевая и альтернативная гипотезы для теста следующие:

H 0 (нуль): переменные подчиняются многомерному нормальному распределению.

H a (альтернативный вариант): переменные не подчиняются многомерному нормальному распределению.

Чтобы выполнить этот тест на Python, мы можем использовать функцию multivariate_normality () из библиотеки pingouin.

Во-первых, нам нужно установить pingouin:

pip install pingouin

Затем мы можем импортировать функцию multivariate_normality() и использовать ее для выполнения многомерного теста на нормальность для данного набора данных:

#import necessary packages
from pingouin import multivariate_normality
import pandas as pd
import numpy as np

#create a dataset with three variables x1, x2, and x3
df = pd.DataFrame({'x1':np.random.normal(size= 50 ),
 'x2': np.random.normal(size= 50 ),
 'x3': np.random.normal(size= 50 )})

#perform the Henze-Zirkler Multivariate Normality Test
multivariate_normality(df, alpha= .05 )

HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)

Результаты теста следующие:

  • Статистика теста ГЦ: 0,59569
  • p-значение: 0,64618

Поскольку p-значение теста не меньше заданного нами значения альфа, равного 0,05, мы не можем отвергнуть нулевую гипотезу. Можно предположить, что набор данных следует многомерному нормальному распределению.

Связанный: Узнайте, как тест Хенце-Цирклера используется в реальных медицинских приложениях, в этой исследовательской статье .

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.