Многие статистические тесты предполагают, что наблюдения независимы. Это означает, что никакие два наблюдения в наборе данных не связаны друг с другом и никак не влияют друг на друга.
Например, предположим, что мы хотим проверить, есть ли разница в среднем весе между двумя видами кошек. Если мы измерим вес 10 кошек вида А и 10 кошек вида В, мы нарушим допущение о независимости, если каждая из групп кошек происходит из одного помета.
Вполне возможно, что у матери-кошки вида A просто были все котята с низким весом, а у матери-кошки вида B были тяжелые котята. В связи с этим наблюдения в каждой выборке не являются независимыми друг от друга.
Есть три распространенных типа статистических тестов, которые делают это предположение о независимости:
2. Дисперсионный анализ (дисперсионный анализ)
В следующих разделах мы объясним, почему это предположение делается для каждого типа тестов, а также как определить, выполняется ли это предположение.
Утверждение независимости в t-тестах
Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.
Предположение: этот тип теста предполагает, что наблюдения в каждой выборке независимы друг от друга и что наблюдения между выборками также независимы друг от друга.
Проверьте это предположение. Самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.
Успение Независимости в ANOVA
Дисперсионный анализ используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.
Предположение: ANOVA предполагает, что наблюдения в каждой группе независимы друг от друга, а наблюдения внутри групп были получены случайной выборкой.
Проверьте это предположение. Как и в случае с t-тестом, самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.
Утверждение независимости в регрессии
Линейная регрессия используется для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Предположение: линейная регрессия предполагает, что остатки в подобранной модели независимы.
Проверьте это предположение. Самый простой способ проверить это предположение — посмотреть на график остаточных временных рядов, который представляет собой график зависимости остатков от времени. В идеале, большая часть остаточных автокорреляций должна находиться в пределах 95% доверительных интервалов около нуля, которые расположены примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, используя тест Дарбина-Ватсона .
Общие источники не-независимости
В наборах данных есть три распространенных источника независимости:
1. Наблюдения близки по времени.
Например, исследователь может собирать данные о средней скорости автомобилей на определенной дороге. Если он решит отслеживать скорости в вечерние часы, он может обнаружить, что средняя скорость намного выше, чем он ожидал, просто потому, что каждый водитель спешит домой с работы.
Эти данные нарушают предположение, что каждое наблюдение является независимым. Поскольку каждое наблюдение проводилось в одно и то же время суток, скорости каждого автомобиля, вероятно, будут одинаковыми.
2. Наблюдения сближены в пространстве.
Например, исследователь может собирать данные о годовом доходе людей, которые живут в одном и том же районе с высоким доходом, потому что это удобно.
В связи с этим все лица, включенные в данные выборки, вероятно, имеют одинаковые доходы, поскольку все они живут рядом друг с другом. Это нарушает предположение о том, что каждое наблюдение независимо.
3. Наблюдения появляются несколько раз в одном и том же наборе данных.
Например, исследователю может потребоваться собрать данные о 50 человек, но вместо этого он решает собрать данные о 25 человек дважды, потому что это гораздо проще сделать.
Это нарушает предположение о независимости, поскольку каждое наблюдение в наборе данных будет связано само с собой.
Как избежать нарушения предположения о независимости
Самый простой способ избежать нарушения предположения о независимости — просто использовать простую случайную выборку при получении выборки из совокупности.
Используя этот метод, каждый человек в интересующей совокупности имеет равные шансы быть включенным в выборку.
Например, если интересующая нас популяция содержит 10 000 человек, мы можем случайным образом присвоить номер каждому человеку в популяции, а затем использовать генератор случайных чисел для выбора 40 случайных чисел. Затем в выборку включаются лица, соответствующие этим числам.
Используя этот метод, мы сводим к минимуму вероятность того, что мы выберем двух людей, которые могут находиться в непосредственной близости друг от друга или могут быть связаны каким-либо образом.
Это прямо противоречит другим методам выборки, таким как:
- Удобная выборка: включение в выборку лиц, с которыми просто удобно связаться.
- Добровольная выборка: включение в выборку лиц, добровольно включенных в нее.
Используя метод случайной выборки, мы можем свести к минимуму вероятность того, что мы нарушим предположение о независимости.
Дополнительные ресурсы
Четыре предположения, сделанные в Т-тесте
Четыре допущения линейной регрессии
Три предположения ANOVA
Что такое репрезентативная выборка и почему она важна?