Что такое предположение о равной дисперсии в статистике?


Многие статистические тесты делают предположение о равной дисперсии.Если это допущение нарушается, то результаты испытаний становятся недостоверными.

Наиболее распространенные статистические тесты и процедуры, которые делают это предположение о равной дисперсии, включают:

1. Дисперсионный анализ

2. t-тесты

3. Линейная регрессия

В этом руководстве объясняется предположение, сделанное для каждого теста, как определить, выполняется ли это предположение, и что делать, если оно нарушается.

Предположение о равной дисперсии в ANOVA

ANOVA («Дисперсионный анализ») используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.

Вот пример того, когда мы могли бы использовать ANOVA:

Предположим, мы набираем 90 человек для участия в эксперименте по снижению веса. Мы случайным образом назначаем 30 человек для использования программы A, B или C в течение одного месяца.
Чтобы увидеть, влияет ли программа на потерю веса, мы можем выполнить односторонний ANOVA .

ANOVA предполагает, что каждая из групп имеет одинаковую дисперсию. Есть два способа проверить, выполняется ли это предположение:

1. Создайте блокплоты.

Блочные диаграммы предлагают визуальный способ проверить предположение о равных дисперсиях.

Дисперсия потери веса в каждой группе может быть видна по длине каждого квадратичного графика. Чем длиннее коробка, тем выше дисперсия. Например, мы видим, что дисперсия немного выше для участников программы C по сравнению с программой A и программой B.

2. Проведите тест Бартлетта.

Тест Бартлетта проверяет нулевую гипотезу о том, что выборки имеют одинаковую дисперсию, по сравнению с альтернативной гипотезой о том, что выборки не имеют одинаковой дисперсии.

Если p-значение теста меньше некоторого уровня значимости (например, 0,05), то у нас есть основания говорить о том, что не все выборки имеют одинаковую дисперсию.

Что, если предположение о равной дисперсии нарушается?

В целом ANOVA считается достаточно устойчивым к нарушениям предположения о равных дисперсиях, если каждая группа имеет одинаковый размер выборки.

Однако, если размеры выборки неодинаковы и это допущение серьезно нарушено, вы можете вместо этого запустить критерий Крускала-Уоллиса , который является непараметрической версией однофакторного дисперсионного анализа.

Предположение о равной дисперсии в t-тестах

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.

Тест делает предположение, что дисперсии равны между двумя группами. Есть два способа проверить, выполняется ли это предположение:

1. Используйте эмпирическое соотношение.

Как правило, если отношение большей дисперсии к меньшей дисперсии меньше 4, то мы можем предположить, что дисперсии примерно равны, и использовать двухвыборочный t-критерий.

Например, предположим, что выборка 1 имеет дисперсию 24,5, а выборка 2 — 15,2. Отношение большей дисперсии выборки к меньшей дисперсии выборки будет рассчитано как 24,5 / 15,2 = 1,61.

Поскольку это отношение меньше 4, можно предположить, что дисперсии между двумя группами примерно равны.

2. Выполните F-тест.

F-тест проверяет нулевую гипотезу о том, что выборки имеют равные дисперсии, по сравнению с альтернативной гипотезой о том, что выборки не имеют одинаковых дисперсий.

Если p-значение теста меньше некоторого уровня значимости (например, 0,05), то у нас есть основания говорить о том, что не все выборки имеют одинаковую дисперсию.

Что, если предположение о равной дисперсии нарушается?

Если это предположение нарушается, мы можем выполнить t-критерий Уэлча , который является непараметрической версией t-критерия для двух выборок и не предполагает, что две выборки имеют одинаковые дисперсии.

Предположение о равной дисперсии в линейной регрессии

Линейная регрессия используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Линейная регрессия предполагает, что остатки имеют постоянную дисперсию на каждом уровне предикторов. Это известно как гомоскедастичность.Когда это не так, говорят, что остатки страдают от гетероскедастичности , и результаты регрессионного анализа становятся ненадежными.

Наиболее распространенный способ определить, выполняется ли это предположение, — построить график остатков по сравнению с подобранными значениями. Если остатки на этом графике кажутся случайным образом разбросанными вокруг нуля, то предположение о гомоскедастичности, вероятно, выполняется.

Однако, если в остатках существует систематическая закономерность, такая как форма «конуса» на следующем графике, тогда гетероскедастичность является проблемой:

Что, если предположение о равной дисперсии нарушается?

Если это предположение нарушается, наиболее распространенный способ справиться с этим — преобразовать переменную ответа с помощью одного из трех преобразований:

1. Преобразование журнала: преобразование переменной ответа из y в log(y) .

2. Преобразование квадратного корня: преобразовать переменную отклика из y в √ y .

3. Преобразование кубического корня: преобразовать переменную ответа из y в y 1/3 .

При выполнении этих преобразований проблема гетероскедастичности обычно исчезает.

Другой способ исправить гетероскедастичность состоит в использовании взвешенной регрессии наименьших квадратов.Этот тип регрессии присваивает вес каждой точке данных на основе дисперсии ее подобранного значения.

По сути, это дает небольшие веса точкам данных с более высокой дисперсией, что уменьшает их квадраты невязок. Когда используются правильные веса, это может устранить проблему гетероскедастичности.

Дополнительные ресурсы

Три предположения, сделанные в ANOVA
Четыре предположения, сделанные в Т-тесте
Четыре допущения линейной регрессии