Размер эффекта: что это такое и почему это важно

«Статистическая значимость — наименее интересная вещь в результатах. Вы должны описывать результаты с точки зрения величины — не только влияет ли лечение на людей, но и насколько сильно оно на них влияет». -Джин В. Гласс

В статистике мы часто используем p-значения , чтобы определить, есть ли статистически значимая разница между двумя группами.

Например, предположим, что мы хотим знать, приводят ли два разных метода обучения к разным результатам тестов. Итак, у нас есть одна группа из 20 студентов, использующая одну технику обучения для подготовки к тесту, а другая группа из 20 студентов использует другую технику обучения. Затем мы предлагаем каждому ученику пройти один и тот же тест.

После запуска двухвыборочного t-теста для разницы в средних значениях мы обнаруживаем, что p-значение теста равно 0,001. Если мы используем уровень значимости 0,05, то это означает, что существует статистически значимая разница между средними результатами тестов двух групп. Таким образом, изучение техники влияет на результаты тестов.

Однако, хотя p-значение говорит нам о том, что изучение техники влияет на результаты тестов, оно не говорит нам о величине этого влияния. Чтобы понять это, нам нужно знать размер эффекта .

Что такое размер эффекта?

Величина эффекта — это способ количественной оценки разницы между двумя группами.

В то время как p-значение может сказать нам, есть ли статистически значимая разница между двумя группами, размер эффекта может сказать нам, насколько велика эта разница на самом деле. На практике размеры эффекта гораздо интереснее и полезнее знать, чем p-значения.

Существует три способа измерения размера эффекта, в зависимости от типа проводимого анализа:

1. Стандартизированная средняя разница

Если вы заинтересованы в изучении средней разницы между двумя группами, подходящим способом расчета размера эффекта является стандартизированная средняя разница.Самая популярная формула для использования известна как d Коэна, которая рассчитывается как:

d Коэна = ( x 1 – x 2 ) / с

где x 1 и x 2 — выборочные средние значения группы 1 и группы 2 соответственно, а s — стандартное отклонение генеральной совокупности, из которой были взяты две группы.

Используя эту формулу, размер эффекта легко интерпретировать:

Значение d , равное 1, указывает на то, что средние значения двух групп отличаются на одно стандартное отклонение.
Значение d , равное 2, означает, что средние группы отличаются на два стандартных отклонения.
Значение d , равное 2,5, указывает на то, что два средних значения отличаются на 2,5 стандартных отклонения и т. д.

Другой способ интерпретировать размер эффекта заключается в следующем: размер эффекта 0,3 означает, что балл среднего человека в группе 2 на 0,3 стандартного отклонения выше среднего человека в группе 1 и, таким образом, превышает баллы 62% людей в группе 1..

В следующей таблице показаны различные величины эффекта и соответствующие им процентили:

| Размер эффекта | Процент участников группы 2 , которые были бы ниже среднего человека в группе 1 | | --- | --- | | 0,0 | 50% | | 0,2 | 58% | | 0,4 | 66% | | 0,6 | 73% | | 0,8 | 79% | | 1,0 | 84% | | 1,2 | 88% | | 1,4 | 92% | | 1,6 | 95% | | 1,8 | 96% | | 2.0 | 98% | | 2,5 | 99% | | 3.0 | 99,9% |

Чем больше размер эффекта, тем больше разница между средним человеком в каждой группе.

Как правило, d 0,2 или меньше считается небольшой величиной эффекта, d около 0,5 считается средней величиной эффекта, а d 0,8 или более считается большой величиной эффекта.

Таким образом, если средние значения двух групп не различаются по крайней мере на 0,2 стандартных отклонения, разница незначительна, даже если p-значение статистически значимо.

2. Коэффициент корреляции

Если вы заинтересованы в изучении количественной взаимосвязи между двумя переменными, наиболее популярным способом расчета размера эффекта являетсякоэффициент корреляции Пирсона.Это мера линейной связи между двумя переменными X и Y. Она имеет значение от -1 до 1, где:

-1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
0 указывает на отсутствие линейной корреляции между двумя переменными
1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Формула для расчета коэффициента корреляции Пирсона довольно сложна, но ее можно найти здесь для тех, кто заинтересован.

Чем дальше коэффициент корреляции от нуля, тем сильнее линейная связь между двумя переменными. Это также можно увидеть, создав простую диаграмму рассеяния значений переменных X и Y .

Например, на следующей диаграмме рассеяния показаны значения двух переменных с коэффициентом корреляции r = 0,94.

Это значение далеко от нуля, что указывает на сильную положительную связь между двумя переменными.

И наоборот, следующая диаграмма рассеяния показывает значения двух переменных, которые имеют коэффициент корреляции r = 0,03. Это значение близко к нулю, что указывает на то, что между двумя переменными практически нет связи.

Как правило, размер эффекта считается низким, если значение коэффициента корреляции Пирсона r составляет около 0,1, средним, если r составляет около 0,3, и большим, если r составляет 0,5 или выше.

3. Отношение шансов

Когда вы заинтересованы в изучении шансов на успех в экспериментальной группе по сравнению с шансами на успех в контрольной группе, наиболее популярным способом расчета размера эффекта является отношение шансов .

Например, предположим, что у нас есть следующая таблица:

| Размер эффекта | # Успехи | # Сбои | | --- | --- | --- | | Группа лечения | А | Б | | Контрольная группа | С | Д |

Отношение шансов будет рассчитываться как:

Отношение шансов = (AD) / (BC)

Чем дальше отношение шансов от 1, тем выше вероятность того, что лечение даст реальный эффект.

Преимущества использования размеров эффекта по сравнению с P-значениями

Размер эффекта имеет несколько преимуществ по сравнению с p-значением:

1. Величина эффекта помогает нам лучше понять, насколько велика разница между двумя группами или насколько сильна связь между двумя группами. Значение p может только сказать нам, есть ли какая-то существенная разница или какая-то существенная связь.

2. В отличие от p-значений размер эффекта можно использовать для количественного сравнения результатов различных исследований, проведенных в разных условиях. По этой причине в метаанализе часто используются величины эффекта.

3. На значения P могут влиять большие размеры выборки. Чем больше размер выборки, тем больше статистическая мощность проверки гипотезы, что позволяет обнаруживать даже небольшие эффекты. Это может привести к низким p-значениям, несмотря на небольшой размер эффекта, который может не иметь практического значения.

Простой пример может прояснить это: предположим, мы хотим знать, приводят ли два метода обучения к разным результатам тестов. У нас есть одна группа из 20 студентов, использующая одну технику обучения, а другая группа из 20 студентов использует другую технику обучения. Затем мы предлагаем каждому ученику пройти один и тот же тест.

Средний балл для группы 1 составляет 90,65 , а средний балл для группы 2 — 90,75.Стандартное отклонение для образца 1 равно 2,77 , а стандартное отклонение для образца 2 равно 2,78 .

Когда мы выполняем независимый двухвыборочный t-тест, оказывается, что статистика теста равна -0,113 , а соответствующее значение p равно 0,91.Разница между средними баллами тестов не является статистически значимой.

Однако рассмотрим, если размеры выборки двух выборок были равны 200 , но средние значения и стандартные отклонения остались точно такими же.

В этом случае независимый t-критерий с двумя выборками показал бы, что статистика теста составляет -1,97 , а соответствующее значение p чуть меньше 0,05.Разница между средними баллами теста статистически значима.

Основная причина того, что большие размеры выборки могут привести к статистически значимым выводам, связана с формулой, используемой для расчета тестовой статистики t :

тестовая статистика t = [( x 1 - x 2 ) - d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Обратите внимание, что когда n 1 и n 2 малы, весь знаменатель тестовой статистики t мал. И когда мы делим на малое число, мы получаем большое число. Это означает, что тестовая статистика t будет большой, а соответствующее значение p будет маленьким, что приведет к статистически значимым результатам.

Что считается хорошим размером эффекта?

У студентов часто возникает вопрос: что считается хорошей величиной эффекта?

Краткий ответ: величина эффекта не может быть «хорошей» или «плохой», поскольку она просто измеряет размер разницы между двумя группами или силу связи между двумя двумя группами.

Тем не менее, мы можем использовать следующие эмпирические правила, чтобы количественно определить, является ли размер эффекта малым, средним или большим:

Коэн Д:

Значение d 0,2 или меньше считается небольшой величиной эффекта.
Значение d 0,5 считается средней величиной эффекта.
Значение d 0,8 или более считается большой величиной эффекта.

Коэффициент корреляции Пирсона

Абсолютное значение r около 0,1 считается низким размером эффекта.
Абсолютное значение r около 0,3 считается средней величиной эффекта.
Абсолютное значение r больше 0,5 считается большой величиной эффекта.

Однако определение «сильной» корреляции может варьироваться от одной области к другой. Обратитесь к этой статье , чтобы лучше понять, что считается сильной корреляцией в разных отраслях.