Часто исследователи хотят использовать какой-либо тип теста для измерения таких характеристик, как интеллект, способности, способности к обучению и т. д. у людей из некоторой группы населения.
При проведении любого типа теста важно, чтобы он был надежным.Другими словами, важно, чтобы результаты теста можно было воспроизвести в одних и тех же условиях в два разных момента времени.
Надежность повторного тестирования — это особый способ измерения надежности теста, который относится к степени, в которой тест дает одинаковые результаты с течением времени.
Мы рассчитываем надежность повторного тестирования с помощьюкоэффициента корреляции Пирсона , который принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя оценками.
- 0 указывает на отсутствие линейной корреляции между двумя оценками.
- 1 указывает на совершенно положительную линейную корреляцию между двумя оценками.
Например, мы можем провести IQ-тест для 50 участников 1 января, а затем месяц спустя провести тот же тип IQ-теста аналогичной сложности для той же группы из 50 участников.
Мы могли бы рассчитать корреляцию баллов между двумя тестами, чтобы определить, имеет ли тест хорошую надежность повторного тестирования.
Как правило, корреляция надежности между тестом и повторным тестом не менее 0,80 или выше указывает на хорошую надежность.
Пример. Расчет надежности при повторных испытаниях
Предположим, исследователи проводят тест для 20 человек, а затем месяц спустя проводят такой же тест для тех же 20 человек.
Их баллы показаны ниже:
Мы можем использовать калькулятор корреляции , чтобы найти, что коэффициент корреляции Пирсона между двумя наборами оценок равен 0,836 .
Поскольку эта корреляция больше 0,80, исследователи могут сделать вывод, что тест имеет хорошую надежность при повторном тестировании.
Другими словами, тест дает надежные результаты, которые можно воспроизвести в разные моменты времени.
Потенциальная погрешность в надежности повторных испытаний
Надежность повторного тестирования — полезная метрика для расчета, но имейте в виду следующие потенциальные отклонения, которые могут повлиять на эту метрику:
1. Эффект от практики
Эффект практики возникает, когда участники просто лучше справляются с каким-то тестом благодаря практике. Это означает, что они, вероятно, покажут лучшие результаты во время более поздних тестов, потому что у них было время потренироваться и улучшить свои навыки.
Способ предотвратить этот тип предвзятости состоит в том, чтобы давать людям тесты одинаковой сложности, но с разным набором вопросов, чтобы они не могли запомнить ответы на типы вопросов, заданных в первом тесте.
2. Эффект усталости
Эффект усталости возникает, когда участникам становится хуже на каком-то тесте, потому что они умственно истощены или утомлены от прохождения предыдущих тестов.
Способ предотвратить этот тип предвзятости — предоставить достаточно времени между тестами (в идеале недели или даже месяцы), чтобы участники были свежими при сдаче обоих тестов.
3. Различия в условиях
Когда участники проходят два теста в разных условиях (т. е. при разном освещении, в разное время суток, в разное время, отведенное на выполнение теста и т. д.), возможно, они получают разные баллы в тестах просто из-за различий в тестовой среде.
Способ предотвратить такого рода предвзятость состоит в том, чтобы гарантировать, что участники проходят оба теста в одинаковых условиях, т. е. в одно и то же время суток, при одинаковом общем освещении и окружающей среде, и им предоставляется одинаковое количество времени для завершения теста.
Дополнительные ресурсы
Краткое введение в анализ надежности
Что такое половинная надежность?
Что такое межоценочная надежность?
Что такое надежность параллельных форм?
Что такое стандартная ошибка измерения?