Что такое ограничение диапазона?

Что такое ограничение диапазона?

Часто в статистике нас интересует измерение корреляции между двумя переменными. Это помогает нам понять следующее:

  • Направление связи между двумя переменными. Когда одна переменная увеличивается, другая переменная имеет тенденцию к увеличению или уменьшению?
  • Сила связи между двумя переменными. Насколько близко изменяются значения двух переменных?

К сожалению, одна проблема, которая может возникнуть при измерении корреляции между двумя переменными, известна как ограничение диапазона.Это происходит, когда диапазон измеряемых значений одной из переменных по какой-либо причине ограничен.

Например, предположим, что мы хотим измерить корреляцию между количеством часов обучения и экзаменационным баллом для учащихся в определенной школе.

Если мы соберем данные по этим двум переменным для всех 1000 учащихся в школе, мы можем обнаружить, что корреляция между часами обучения и экзаменационным баллом составляет 0,73 .

Эта корреляция достаточно высока, что указывает на сильную положительную связь между двумя переменными. По мере того, как студенты учатся больше, они, как правило, получают более высокие баллы на экзаменах.

Однако предположим, что мы собрали данные только для студентов курсов с отличием. Может оказаться, что все эти студенты учились не менее 6 часов.

Таким образом, если мы вычислим корреляцию между количеством часов обучения и экзаменационными баллами для этих студентов, мы будем использовать ограниченный диапазон для переменных часов обучения .

Пример ограниченного диапазона

Если мы увеличим диаграмму рассеяния для диапазона, где Hours больше 6, вот как будет выглядеть график:

Диаграмма рассеяния для примера с ограниченным диапазоном

Корреляция между двумя переменными на этом графике оказывается равной 0,37 , что значительно ниже 0,73 .

Таким образом, если бы мы собирали данные только об учебных часах и экзаменационных баллах для студентов курсов с отличием, мы могли бы предположить, что существует слабая связь между отработанными часами и экзаменационными баллами.

Однако этот результат может ввести в заблуждение, поскольку мы использовали ограниченный диапазон для одной из переменных.

Реальные примеры ограниченного диапазона

Проблема ограниченного диапазона может возникать на практике во многих различных исследованиях. Вот пара примеров:

1. Исследования высокоэффективных спортсменов.Исследователям может быть интересно узнать, производит ли определенный режим тренировок больше мышечной массы, чем какой-либо стандартный режим.

Если исследователи собирают данные только для высокоэффективных спортсменов, вполне вероятно, что все эти спортсмены уже имеют большое количество мышечной массы, поэтому будет узкий диапазон значений, доступных для расчета корреляции между режимом тренировок и произведенной мышечной массой.

2. Исследования успевающих студентов. Исследователи могут быть заинтересованы в изучении того, оказывает ли определенная программа репетиторства положительное влияние на оценки. По своей природе учащиеся, которые стремятся улучшить свои оценки и участвуют в программе репетиторства, уже могут быть высокоэффективными учениками.

Таким образом, у этих учащихся может быть не так много возможностей для улучшения оценок. Когда исследователи рассчитывают корреляцию между часами, проведенными в программе репетиторства, и полученным в результате повышением оценок, истинная корреляция может быть занижена, поскольку диапазон улучшения оценок был ограничен.

Как учитывать диапазоны с ограничениями

Один из популярных способов учета ограниченных диапазонов известен как случай Торндайка 2 — формула, разработанная специалистом по психометрии Робертом Л. Торндайком.

Эта формула обеспечивает оценку истинной корреляции между двумя переменными и использует следующий расчет:

Истинная корреляция = √(1-(SD 2 y с ограничениями -SD 2 y без ограничений )) * (1-r 2 с ограничениями )

куда:

  • SD 2 y limited : Квадрат стандартного отклонения доступных данных для переменной отклика y.
  • SD 2 y unlimited : известное квадратичное стандартное отклонение переменной ответа для совокупности.
  • r 2 limited : Квадрат корреляции доступных ограниченных данных.

Было показано, что эта формула эффективна для получения объективных оценок истинной корреляции между двумя переменными, когда одна из переменных имеет ограниченный диапазон.

Обратите внимание, что для использования этой формулы необходимо иметь оценку истинного стандартного отклонения генеральной совокупности для переменной ответа.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.