Простое объяснение статистической и практической значимости


Статистическая гипотеза – это предположение о параметре совокупности.Например, мы можем предположить, что средний рост мужчины в определенном округе составляет 68 дюймов. Предположение о росте является статистической гипотезой , а истинный средний рост мужчины в США является популяционным параметром .

Проверка гипотезы — это формальный статистический тест, который мы используем, чтобы отвергнуть или не опровергнуть статистическую гипотезу. Чтобы выполнить проверку гипотезы, мы получаем случайную выборку из населения и определяем, вероятно ли, что данные выборки имели место, учитывая, что нулевая гипотеза действительно верна.

Если выборочные данные достаточно маловероятны при таком предположении, то мы можем отклонить нулевую гипотезу и сделать вывод, что эффект существует.

Способ, которым мы определяем, являются ли выборочные данные «достаточно маловероятными» в предположении, что ноль истинен, состоит в том, чтобы определить некоторый уровень значимости (обычно выбираемый равным 0,01, 0,05 или 0,10), а затем проверить, соответствует ли p- значение проверки гипотезы меньше этого уровня значимости.

Если p-значение меньше уровня значимости, то мы говорим, что результаты статистически значимы.Это просто означает, что какой-то эффект существует, но это не обязательно означает, что эффект действительно практичен в реальном мире. Результаты могут быть статистически значимыми, не будучи практически значимыми .

Связанный: Объяснение P-значений и статистической значимости

Практическая значимость

Проверка гипотез может давать статистически значимые результаты, несмотря на небольшую величину эффекта. Есть два основных способа, которыми небольшие размеры эффекта могут привести к небольшим (и, следовательно, статистически значимым) p-значениям:

1. Изменчивость выборочных данных очень низкая. Когда ваши выборочные данные имеют низкую изменчивость, проверка гипотезы может дать более точные оценки эффекта совокупности, что позволяет тесту обнаруживать даже небольшие эффекты.

Например, предположим, что мы хотим выполнить независимый двухвыборочный t-критерий для следующих двух выборок, которые показывают результаты тестов 20 учащихся из двух разных школ, чтобы определить, существенно ли различаются средние результаты тестов между школами:

sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

Среднее значение для образца 1 составляет 85,55 , а среднее значение для образца 2 составляет 86,40.Когда мы выполняем независимый двухвыборочный t-тест, оказывается, что статистика теста равна -5,3065 , а соответствующее значение p <0,0001.Разница между результатами тестов статистически значима.

Разница между средними результатами тестов для этих двух выборок составляет всего 0,85 , но низкая вариабельность результатов тестов по каждой школе обуславливает статистически значимый результат. Обратите внимание, что стандартное отклонение оценок составляет 0,51 для образца 1 и 0,50 для образца 2.

Именно эта низкая изменчивость позволила проверке гипотез обнаружить крошечную разницу в баллах и сделать различия статистически значимыми.

Основная причина того, что низкая изменчивость может привести к статистически значимым выводам, заключается в том, что статистика теста t для независимого t-теста с двумя выборками рассчитывается как:

тестовая статистика t = [( x 1 - x 2 ) - d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

где s 2 1 и s 2 2 указывают вариацию выборки для пробы 1 и пробы 2 соответственно. Обратите внимание, что когда эти два числа малы, весь знаменатель тестовой статистики t мал.

И когда мы делим на малое число, мы получаем большое число. Это означает, что тестовая статистика t будет большой, а соответствующее значение p будет маленьким, что приведет к статистически значимым результатам.

2. Размер выборки очень большой. Чем больше размер выборки, тем больше статистическая мощность проверки гипотезы, что позволяет обнаруживать даже небольшие эффекты. Это может привести к статистически значимым результатам, несмотря на небольшие эффекты, которые могут не иметь практического значения.

Например, предположим, что мы хотим выполнить независимый двухвыборочный t-критерий для следующих двух выборок, которые показывают результаты тестов 20 учащихся из двух разных школ, чтобы определить, существенно ли различаются средние результаты тестов между школами:

Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Если мы создадим блочную диаграмму для каждого образца, чтобы отобразить распределение баллов, мы увидим, что они очень похожи:

Блочные диаграммы в R

Среднее значение для образца 1 равно 90,65 , а среднее значение для образца 2 равно 90,75.Стандартное отклонение для образца 1 равно 2,77 , а стандартное отклонение для образца 2 равно 2,78.Когда мы выполняем независимый двухвыборочный t-тест, оказывается, что статистика теста равна -0,113 , а соответствующее значение p равно 0,91.Разница между средними баллами тестов не является статистически значимой.

Однако подумайте, были ли размеры двух выборок равны 200.В этом случае независимый t-критерий с двумя выборками показал бы, что статистика теста составляет -1,97 , а соответствующее значение p чуть меньше 0,05.Разница между средними баллами теста статистически значима.

Основная причина того, что большие размеры выборки могут привести к статистически значимым выводам, снова восходит к статистике теста t для независимого t-теста с двумя выборками:

тестовая статистика t = [( x 1 - x 2 ) - d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Обратите внимание, что когда n 1 и n 2 малы, весь знаменатель тестовой статистики t мал. И когда мы делим на малое число, мы получаем большое число. Это означает, что тестовая статистика t будет большой, а соответствующее значение p будет маленьким, что приведет к статистически значимым результатам.

Использование предметной экспертизы для оценки практической значимости

Чтобы определить, является ли статистически значимый результат проверки гипотезы практически значимым, часто требуется предметная экспертиза.

В предыдущих примерах, когда мы тестировали различия между результатами тестов для двух школ, было бы полезно иметь опыт кого-то, кто работает в школах или кто проводит эти типы тестов, чтобы помочь нам определить, является ли средняя разница в 1 балл или нет. имеет практическое значение.

Например, средняя разница в 1 балл может быть статистически значимой при альфа-уровне = 0,05, но означает ли это, что школа с более низкими баллами должна принять учебную программу, которую использует школа с более высокими баллами? Или это повлечет за собой слишком большие административные расходы и будет слишком дорогим/своевременным для реализации?

Тот факт, что существует статистически значимая разница в результатах тестов между двумя школами, не означает, что величина эффекта от этой разницы достаточно велика, чтобы вызвать некоторые изменения в системе образования.

Использование доверительных интервалов для оценки практической значимости

Другим полезным инструментом для определения практической значимости является доверительный интервал.Доверительный интервал дает нам диапазон значений, в который, вероятно, попадает истинный параметр совокупности.

Например, вернемся к примеру сравнения разницы в результатах тестов между двумя школами. Директор может заявить, что средняя разница в баллах не менее 5 баллов необходима для того, чтобы школа приняла новую учебную программу.

В одном исследовании мы можем обнаружить, что средняя разница в результатах тестов составляет 8 баллов. Однако доверительный интервал вокруг этого среднего может быть [4, 12], что указывает на то, что 4 может быть истинной разницей между средними результатами теста. В этом случае директор может сделать вывод, что школа не будет менять учебную программу, поскольку доверительный интервал показывает, что истинная разница может быть меньше 5.

Однако в другом исследовании мы можем обнаружить, что средняя разница в результатах тестов снова составляет 8 баллов, но доверительный интервал вокруг среднего значения может быть [6, 10]. Поскольку этот интервал не содержит 5 , директор, скорее всего, сделает вывод, что истинная разница в результатах тестов больше 5, и, таким образом, решит, что имеет смысл изменить учебную программу.

Вывод

В заключение, вот что мы узнали:

  • Статистическая значимость указывает только на наличие эффекта, основанного на некотором уровне значимости.
  • Практическая значимость заключается в том, имеет ли этот эффект практическое значение в реальном мире.
  • Мы используем статистический анализ для определения статистической значимости и экспертизу предметной области для оценки практической значимости.
  • Небольшие размеры эффекта могут привести к небольшим значениям p, когда (1) изменчивость выборочных данных очень низкая и когда (2) размер выборки очень велик.
  • Определив минимальный размер эффекта до того, как мы проведем проверку гипотезы, мы сможем лучше оценить, действительно ли результат проверки гипотезы (даже если он статистически значим) практичен в реальном мире.
  • Доверительные интервалы могут быть полезны для определения практической значимости. Если минимальная величина эффекта не содержится в доверительном интервале, то результаты могут быть практически значимыми.
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.