Что такое предположение о нормальности в статистике?

Что такое предположение о нормальности в статистике?

Многие статистические тесты полагаются на так называемое предположение о нормальности .

Это предположение гласит, что если мы соберем множество независимых случайных выборок из совокупности и вычислим некоторое представляющее интерес значение (например, среднее значение выборки ), а затем создадим гистограмму для визуализации распределения средних значений выборки, мы должны наблюдать идеальную кривую нормального распределения.

Многие статистические методы делают это предположение о данных, в том числе:

1. Один выборочный t-критерий : предполагается, что выборочные данные нормально распределены.

2. Стьюдентный критерий для двух выборок. Предполагается, что обе выборки имеют нормальное распределение.

3. Дисперсионный анализ.Предполагается, что остатки модели нормально распределены.

4. Линейная регрессия.Предполагается, что остатки модели нормально распределены.

Если это предположение нарушается, то результаты этих тестов становятся ненадежными, и мы не можем с уверенностью обобщить наши выводы из выборочных данных на общую популяцию.Вот почему важно проверить, выполняется ли это предположение.

Есть два распространенных способа проверить, выполняется ли это предположение о нормальности:

1. Визуализируйте нормальность

2. Проведите формальный статистический тест

В следующих разделах объясняются конкретные графики, которые вы можете создать, и конкретные статистические тесты, которые вы можете выполнить для проверки нормальности.

Визуализируйте нормальность

Быстрый и неформальный способ проверить, нормально ли распределен набор данных, — это создать гистограмму или график QQ.

1. Гистограмма

Если гистограмма для набора данных имеет форму колокола, вероятно, данные распределены нормально.

2. Сюжет QQ

График QQ, сокращение от графика «квантиль-квантиль», представляет собой тип графика, который отображает теоретические квантили по оси x (т. е. где ваши данные лежали бы, если бы они следовали нормальному распределению) и выборочные квантили по оси y. (т.е. где на самом деле лежат ваши данные).

Если значения данных падают примерно по прямой линии под углом 45 градусов, предполагается, что данные распределены нормально.

Выполните формальный статистический тест

Вы также можете выполнить формальный статистический тест, чтобы определить, нормально ли распределен набор данных.

Если p-значение теста меньше определенного уровня значимости (например, α = 0,05), то у вас есть достаточно доказательств, чтобы сказать, что данные не распределены нормально.

Есть три статистических теста, которые обычно используются для проверки нормальности:

1. Тест Харке-Бера

2. Тест Шапиро-Уилка

3. Тест Колмогорова-Смирнова.

Что делать, если предположение о нормальности нарушено

Если окажется, что ваши данные не распределены нормально, у вас есть два варианта:

1. Преобразуйте данные.

Один из вариантов — просто преобразовать данные, чтобы сделать их более нормально распределенными. Общие преобразования включают в себя:

  • Преобразование журнала: преобразование данных из y в log(y) .
  • Преобразование квадратного корня: преобразование данных из y в √ y
  • Преобразование кубического корня: преобразование данных из y в y 1/3
  • Преобразование Бокса-Кокса: преобразование данных с помощью процедуры Бокса-Кокса .

При выполнении этих преобразований распределение значений данных обычно становится более нормальным.

2. Выполните непараметрический тест

Статистические тесты, которые делают предположение о нормальности, известны как параметрические тесты.Но есть также семейство тестов, известных как непараметрические тесты , которые не делают этого предположения о нормальности.

Если выяснится, что ваши данные не распределены нормально, вы можете просто выполнить непараметрический тест. Вот несколько непараметрических версий общих статистических тестов:

| Параметрический тест | Непараметрический эквивалент | | --- | --- | | Один образец t-критерия | Один образец знакового рангового теста Уилкоксона | | Двухвыборочный t-критерий | U-тест Манна-Уитни | | Стьюдентный критерий парных выборок | Знаковый ранговый тест Уилкоксона для двух выборок | | Односторонний дисперсионный анализ | Тест Крускала-Уоллиса |

Каждый из этих непараметрических тестов позволяет вам выполнять статистический тест, не удовлетворяя допущению о нормальности.

Дополнительные ресурсы

Четыре предположения, сделанные в Т-тесте
Четыре допущения линейной регрессии
Четыре предположения ANOVA

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.