Часто исследователи хотят использовать какой-либо тип теста для измерения таких характеристик, как интеллект, способности, способности к обучению и т. д. у людей из некоторой группы населения.
При проведении любого типа теста важно, чтобы он был надежным.Другими словами, важно, чтобы результаты теста можно было воспроизвести в одних и тех же условиях в два разных момента времени.
Надежность повторного тестирования — это особый способ измерения надежности теста, который относится к степени, в которой тест дает одинаковые результаты с течением времени.
Мы рассчитываем надежность повторного тестирования с помощьюкоэффициента корреляции Пирсона , который принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя оценками.
- 0 указывает на отсутствие линейной корреляции между двумя оценками.
- 1 указывает на совершенно положительную линейную корреляцию между двумя оценками.
Например, мы можем провести IQ-тест для 50 участников 1 января, а затем месяц спустя провести тот же тип IQ-теста аналогичной сложности для той же группы из 50 участников.
Мы могли бы рассчитать корреляцию баллов между двумя тестами, чтобы определить, имеет ли тест хорошую надежность повторного тестирования.
![Надежность повторных испытаний](https://www.codecamp.ru/content/images/2021/02/test_retest1.png)
Как правило, корреляция надежности между тестом и повторным тестом не менее 0,80 или выше указывает на хорошую надежность.
Пример. Расчет надежности при повторных испытаниях
Предположим, исследователи проводят тест для 20 человек, а затем месяц спустя проводят такой же тест для тех же 20 человек.
Их баллы показаны ниже:
![Пример расчета ретестовой надежности](https://www.codecamp.ru/content/images/2021/02/test_retest2.png)
Мы можем использовать калькулятор корреляции , чтобы найти, что коэффициент корреляции Пирсона между двумя наборами оценок равен 0,836 .
Поскольку эта корреляция больше 0,80, исследователи могут сделать вывод, что тест имеет хорошую надежность при повторном тестировании.
Другими словами, тест дает надежные результаты, которые можно воспроизвести в разные моменты времени.
Потенциальная погрешность в надежности повторных испытаний
Надежность повторного тестирования — полезная метрика для расчета, но имейте в виду следующие потенциальные отклонения, которые могут повлиять на эту метрику:
1. Эффект от практики
Эффект практики возникает, когда участники просто лучше справляются с каким-то тестом благодаря практике. Это означает, что они, вероятно, покажут лучшие результаты во время более поздних тестов, потому что у них было время потренироваться и улучшить свои навыки.
Способ предотвратить этот тип предвзятости состоит в том, чтобы давать людям тесты одинаковой сложности, но с разным набором вопросов, чтобы они не могли запомнить ответы на типы вопросов, заданных в первом тесте.
2. Эффект усталости
Эффект усталости возникает, когда участникам становится хуже на каком-то тесте, потому что они умственно истощены или утомлены от прохождения предыдущих тестов.
Способ предотвратить этот тип предвзятости — предоставить достаточно времени между тестами (в идеале недели или даже месяцы), чтобы участники были свежими при сдаче обоих тестов.
3. Различия в условиях
Когда участники проходят два теста в разных условиях (т. е. при разном освещении, в разное время суток, в разное время, отведенное на выполнение теста и т. д.), возможно, они получают разные баллы в тестах просто из-за различий в тестовой среде.
Способ предотвратить такого рода предвзятость состоит в том, чтобы гарантировать, что участники проходят оба теста в одинаковых условиях, т. е. в одно и то же время суток, при одинаковом общем освещении и окружающей среде, и им предоставляется одинаковое количество времени для завершения теста.
Дополнительные ресурсы
Краткое введение в анализ надежности
Что такое половинная надежность?
Что такое межоценочная надежность?
Что такое надежность параллельных форм?
Что такое стандартная ошибка измерения?