Что такое межоценочная надежность? (Определение и пример)

В статистике надежность между оценщиками — это способ измерить уровень согласия между несколькими оценщиками или судьями.

Он используется как способ оценки надежности ответов, выдаваемых различными элементами теста. Если тест имеет более низкую надежность между оценщиками, это может указывать на то, что элементы теста запутаны, неясны или даже не нужны.

Существует два распространенных способа измерения межоценочной надежности:

1. Процентное соглашение

Простой способ измерить надежность между оценщиками — подсчитать процент вопросов, по которым судьи согласны.

Это известно как процент согласия , который всегда находится в диапазоне от 0 до 1, где 0 указывает на отсутствие согласия между оценщиками, а 1 указывает на полное согласие между оценщиками.

Например, предположим, что двух судей просят оценить сложность 10 заданий теста по шкале от 1 до 3. Результаты показаны ниже:

Для каждого вопроса мы можем поставить «1», если два судьи согласны, и «0», если они не согласны.

Процент вопросов, с которыми согласились судьи, составил 7/10 = 70% .

2. Каппа Коэна

Более сложный (и более строгий) способ измерения надежности между оценщиками состоит в использовании каппы Коэна , которая вычисляет процент пунктов, по которым оценщики согласны, при учете того факта, что оценщики могут прийти к единому мнению по некоторым пунктам. случайно.

Формула каппы Коэна рассчитывается как:

k = ( po – p e ) / (1 – p e )

куда:

p o : Относительное наблюдаемое согласие среди оценщиков
p e : Гипотетическая вероятность случайного совпадения

Каппа Коэна всегда находится в диапазоне от 0 до 1, где 0 указывает на отсутствие согласия между оценщиками, а 1 указывает на полное согласие между оценщиками.

Пошаговый пример расчета каппы Коэна см. в этом руководстве .

Как интерпретировать межоценочную надежность

Чем выше межоценочная надежность, тем более последовательно несколько судей оценивают элементы или вопросы в тесте с одинаковыми баллами.

Как правило, в большинстве областей требуется согласие между экспертами не менее 75%, чтобы тест считался надежным. Однако в определенных областях может потребоваться более высокая межоценочная надежность.

Например, межоценочная надежность в 75% может быть приемлемой для теста, целью которого является определение того, насколько хорошо будет воспринято телешоу.

С другой стороны, межэкспертная надежность 95% может потребоваться в медицинских учреждениях, в которых несколько врачей оценивают, следует ли использовать определенное лечение для данного пациента.

Обратите внимание, что в большинстве академических условий и строгих областей исследований каппа Коэна используется для расчета межэкспертной надежности.

Дополнительные ресурсы

Краткое введение в анализ надежности
Что такое половинная надежность?
Что такое надежность повторных испытаний?
Что такое надежность параллельных форм?
Что такое стандартная ошибка измерения?
Калькулятор Каппы Коэна

Что такое межоценочная надежность? (Определение и пример)

Как интерпретировать межоценочную надежность

Дополнительные ресурсы

Редакция Кодкампа