Что такое предположение о независимости в статистике?


Многие статистические тесты предполагают, что наблюдения независимы. Это означает, что никакие два наблюдения в наборе данных не связаны друг с другом и никак не влияют друг на друга.

Например, предположим, что мы хотим проверить, есть ли разница в среднем весе между двумя видами кошек. Если мы измерим вес 10 кошек вида А и 10 кошек вида В, мы нарушим допущение о независимости, если каждая из групп кошек происходит из одного помета.

Вполне возможно, что у матери-кошки вида A просто были все котята с низким весом, а у матери-кошки вида B были тяжелые котята. В связи с этим наблюдения в каждой выборке не являются независимыми друг от друга.

Есть три распространенных типа статистических тестов, которые делают это предположение о независимости:

1. Двухвыборочный t-критерий

2. Дисперсионный анализ (дисперсионный анализ)

3. Линейная регрессия

В следующих разделах мы объясним, почему это предположение делается для каждого типа тестов, а также как определить, выполняется ли это предположение.

Утверждение независимости в t-тестах

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.

Предположение: этот тип теста предполагает, что наблюдения в каждой выборке независимы друг от друга и что наблюдения между выборками также независимы друг от друга.

Проверьте это предположение. Самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.

Успение Независимости в ANOVA

Дисперсионный анализ используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.

Предположение: ANOVA предполагает, что наблюдения в каждой группе независимы друг от друга, а наблюдения внутри групп были получены случайной выборкой.

Проверьте это предположение. Как и в случае с t-тестом, самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.

Утверждение независимости в регрессии

Линейная регрессия используется для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Предположение: линейная регрессия предполагает, что остатки в подобранной модели независимы.

Проверьте это предположение. Самый простой способ проверить это предположение — посмотреть на график остаточных временных рядов, который представляет собой график зависимости остатков от времени. В идеале, большая часть остаточных автокорреляций должна находиться в пределах 95% доверительных интервалов около нуля, которые расположены примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, используя тест Дарбина-Ватсона .

Общие источники не-независимости

В наборах данных есть три распространенных источника независимости:

1. Наблюдения близки по времени.

Например, исследователь может собирать данные о средней скорости автомобилей на определенной дороге. Если он решит отслеживать скорости в вечерние часы, он может обнаружить, что средняя скорость намного выше, чем он ожидал, просто потому, что каждый водитель спешит домой с работы.

Эти данные нарушают предположение, что каждое наблюдение является независимым. Поскольку каждое наблюдение проводилось в одно и то же время суток, скорости каждого автомобиля, вероятно, будут одинаковыми.

2. Наблюдения сближены в пространстве.

Например, исследователь может собирать данные о годовом доходе людей, которые живут в одном и том же районе с высоким доходом, потому что это удобно.

В связи с этим все лица, включенные в данные выборки, вероятно, имеют одинаковые доходы, поскольку все они живут рядом друг с другом. Это нарушает предположение о том, что каждое наблюдение независимо.

3. Наблюдения появляются несколько раз в одном и том же наборе данных.

Например, исследователю может потребоваться собрать данные о 50 человек, но вместо этого он решает собрать данные о 25 человек дважды, потому что это гораздо проще сделать.

Это нарушает предположение о независимости, поскольку каждое наблюдение в наборе данных будет связано само с собой.

Как избежать нарушения предположения о независимости

Самый простой способ избежать нарушения предположения о независимости — просто использовать простую случайную выборку при получении выборки из совокупности.

Используя этот метод, каждый человек в интересующей совокупности имеет равные шансы быть включенным в выборку.

Например, если интересующая нас популяция содержит 10 000 человек, мы можем случайным образом присвоить номер каждому человеку в популяции, а затем использовать генератор случайных чисел для выбора 40 случайных чисел. Затем в выборку включаются лица, соответствующие этим числам.

Используя этот метод, мы сводим к минимуму вероятность того, что мы выберем двух людей, которые могут находиться в непосредственной близости друг от друга или могут быть связаны каким-либо образом.

Это прямо противоречит другим методам выборки, таким как:

  • Удобная выборка: включение в выборку лиц, с которыми просто удобно связаться.
  • Добровольная выборка: включение в выборку лиц, добровольно включенных в нее.

Используя метод случайной выборки, мы можем свести к минимуму вероятность того, что мы нарушим предположение о независимости.

Дополнительные ресурсы

Четыре предположения, сделанные в Т-тесте
Четыре допущения линейной регрессии
Три предположения ANOVA
Что такое репрезентативная выборка и почему она важна?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.