Четыре предположения, сделанные в Т-тесте

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.

Этот тип теста делает следующие предположения о данных:

1. Независимость: наблюдения в одной выборке не зависят от наблюдений в другой выборке.

2. Нормальность: Обе выборки примерно нормально распределены.

3. Однородность дисперсии. Обе выборки имеют примерно одинаковую дисперсию.

4. Случайная выборка: обе выборки были получены методом случайной выборки.

Если одно или несколько из этих предположений нарушены, то результаты двухвыборочного t-критерия могут быть ненадежными или даже вводящими в заблуждение.

В этом руководстве мы даем объяснение каждому предположению, как определить, выполняется ли предположение, и что делать, если предположение нарушается.

Предположение 1: Независимость

Двухвыборочный t-критерий предполагает, что наблюдения в одной выборке не зависят от наблюдений в другой выборке.

Это важное допущение, потому что если одни и те же люди появляются в обеих выборках, то нельзя делать выводы о различиях между выборками.

Как проверить это предположение

Самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны с использованием случайной выборки.

Что делать, если это предположение нарушается

Если это предположение нарушается, результаты двухвыборочного t-теста полностью недействительны. В этом сценарии лучше всего собрать две новые выборки, используя метод случайной выборки, и убедиться, что каждый человек в одной выборке не принадлежит к другой выборке.

Предположение 2: нормальность

Двухвыборочный t-критерий предполагает, что обе выборки распределены приблизительно нормально.

Это важное допущение, потому что, если выборки не распределены нормально, то нельзя использовать p-значения из теста, чтобы делать выводы о различиях между выборками.

Как проверить это предположение

Если размеры выборки малы (n < 50), то мы можем использовать критерий Шапиро-Уилка, чтобы определить, нормально ли распределяется каждый размер выборки. Если p-значение теста меньше определенного уровня значимости, то данные, вероятно, не распределены нормально.

Если размеры выборки велики, то лучше использовать график QQ , чтобы визуально проверить, нормально ли распределены данные.

Если точки данных примерно расположены вдоль прямой диагональной линии на графике QQ, то набор данных, вероятно, следует нормальному распределению.

Что делать, если это предположение нарушается

Если это предположение нарушается, мы можем выполнить U-критерий Манна-Уитни , который считается непараметрическим эквивалентом двухвыборочного t-критерия и не предполагает нормального распределения двух выборок.

Допущение 3: Однородность отклонений

Двухвыборочный t-критерий предполагает, что две выборки имеют примерно равные дисперсии.

Как проверить это предположение

Мы используем следующее эмпирическое правило, чтобы определить, равны ли дисперсии между двумя выборками: если отношение большей дисперсии к меньшей дисперсии меньше 4, то мы можем предположить, что дисперсии приблизительно равны, и использовать две выборки t -тест.

Например, предположим, что выборка 1 имеет дисперсию 24,5, а выборка 2 — 15,2. Отношение большей дисперсии выборки к меньшей дисперсии выборки будет рассчитываться как:

Соотношение: 24,5 / 15,2 = 1,61

Поскольку это отношение меньше 4, можно предположить, что дисперсии между двумя группами примерно равны.

Что делать, если это предположение нарушается

Если это предположение нарушается, мы можем выполнить t-критерий Уэлча , который является непараметрической версией t-критерия для двух выборок и не предполагает, что две выборки имеют одинаковые дисперсии.

Допущение 4: Случайная выборка

Двухвыборочный t-критерий предполагает, что обе выборки были получены методом случайной выборки.

Как проверить это предположение

Не существует формального статистического теста, который мы могли бы использовать для проверки этого предположения. Вместо этого нам просто нужно убедиться, что обе выборки были получены с использованием метода случайной выборки , так что каждый человек в интересующей совокупности имел равную вероятность быть включенным в любую выборку.

Что делать, если это предположение нарушается

Если это предположение нарушается, то маловероятно, что наши две выборки репрезентативны для интересующей совокупности. В этом случае мы не можем с надежностью обобщить результаты двухвыборочного t-теста на общую популяцию .

В этом сценарии лучше всего собрать две новые выборки, используя метод случайной выборки.

Четыре предположения, сделанные в Т-тесте

Предположение 1: Независимость

Как проверить это предположение

Что делать, если это предположение нарушается

Предположение 2: нормальность

Как проверить это предположение

Что делать, если это предположение нарушается

Допущение 3: Однородность отклонений

Как проверить это предположение

Что делать, если это предположение нарушается

Допущение 4: Случайная выборка

Как проверить это предположение

Что делать, если это предположение нарушается

Редакция Кодкампа