Что такое предположение о независимости в статистике?


Многие статистические тесты предполагают, что наблюдения независимы. Это означает, что никакие два наблюдения в наборе данных не связаны друг с другом и никак не влияют друг на друга.

Например, предположим, что мы хотим проверить, есть ли разница в среднем весе между двумя видами кошек. Если мы измерим вес 10 кошек вида А и 10 кошек вида В, мы нарушим допущение о независимости, если каждая из групп кошек происходит из одного помета.

Вполне возможно, что у матери-кошки вида A просто были все котята с низким весом, а у матери-кошки вида B были тяжелые котята. В связи с этим наблюдения в каждой выборке не являются независимыми друг от друга.

Есть три распространенных типа статистических тестов, которые делают это предположение о независимости:

1. Двухвыборочный t-критерий

2. Дисперсионный анализ (дисперсионный анализ)

3. Линейная регрессия

В следующих разделах мы объясним, почему это предположение делается для каждого типа тестов, а также как определить, выполняется ли это предположение.

Утверждение независимости в t-тестах

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.

Предположение: этот тип теста предполагает, что наблюдения в каждой выборке независимы друг от друга и что наблюдения между выборками также независимы друг от друга.

Проверьте это предположение. Самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.

Успение Независимости в ANOVA

Дисперсионный анализ используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.

Предположение: ANOVA предполагает, что наблюдения в каждой группе независимы друг от друга, а наблюдения внутри групп были получены случайной выборкой.

Проверьте это предположение. Как и в случае с t-тестом, самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.

Утверждение независимости в регрессии

Линейная регрессия используется для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Предположение: линейная регрессия предполагает, что остатки в подобранной модели независимы.

Проверьте это предположение. Самый простой способ проверить это предположение — посмотреть на график остаточных временных рядов, который представляет собой график зависимости остатков от времени. В идеале, большая часть остаточных автокорреляций должна находиться в пределах 95% доверительных интервалов около нуля, которые расположены примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, используя тест Дарбина-Ватсона .

Общие источники не-независимости

В наборах данных есть три распространенных источника независимости:

1. Наблюдения близки по времени.

Например, исследователь может собирать данные о средней скорости автомобилей на определенной дороге. Если он решит отслеживать скорости в вечерние часы, он может обнаружить, что средняя скорость намного выше, чем он ожидал, просто потому, что каждый водитель спешит домой с работы.

Эти данные нарушают предположение, что каждое наблюдение является независимым. Поскольку каждое наблюдение проводилось в одно и то же время суток, скорости каждого автомобиля, вероятно, будут одинаковыми.

2. Наблюдения сближены в пространстве.

Например, исследователь может собирать данные о годовом доходе людей, которые живут в одном и том же районе с высоким доходом, потому что это удобно.

В связи с этим все лица, включенные в данные выборки, вероятно, имеют одинаковые доходы, поскольку все они живут рядом друг с другом. Это нарушает предположение о том, что каждое наблюдение независимо.

3. Наблюдения появляются несколько раз в одном и том же наборе данных.

Например, исследователю может потребоваться собрать данные о 50 человек, но вместо этого он решает собрать данные о 25 человек дважды, потому что это гораздо проще сделать.

Это нарушает предположение о независимости, поскольку каждое наблюдение в наборе данных будет связано само с собой.

Как избежать нарушения предположения о независимости

Самый простой способ избежать нарушения предположения о независимости — просто использовать простую случайную выборку при получении выборки из совокупности.

Используя этот метод, каждый человек в интересующей совокупности имеет равные шансы быть включенным в выборку.

Например, если интересующая нас популяция содержит 10 000 человек, мы можем случайным образом присвоить номер каждому человеку в популяции, а затем использовать генератор случайных чисел для выбора 40 случайных чисел. Затем в выборку включаются лица, соответствующие этим числам.

Используя этот метод, мы сводим к минимуму вероятность того, что мы выберем двух людей, которые могут находиться в непосредственной близости друг от друга или могут быть связаны каким-либо образом.

Это прямо противоречит другим методам выборки, таким как:

  • Удобная выборка: включение в выборку лиц, с которыми просто удобно связаться.
  • Добровольная выборка: включение в выборку лиц, добровольно включенных в нее.

Используя метод случайной выборки, мы можем свести к минимуму вероятность того, что мы нарушим предположение о независимости.

Дополнительные ресурсы

Четыре предположения, сделанные в Т-тесте
Четыре допущения линейной регрессии
Три предположения ANOVA
Что такое репрезентативная выборка и почему она важна?