Что такое влиятельное наблюдение в статистике?

Что такое влиятельное наблюдение в статистике?

В статистике влиятельное наблюдение — это наблюдение в наборе данных, удаление которого резко меняет оценки коэффициентов регрессионной модели.

Наиболее распространенным способом измерения влияния наблюдений является использование расстояния Кука , которое количественно определяет, насколько все подогнанные значения в регрессионной модели изменяются при удалении i -го наблюдения.

Как правило, любое наблюдение с расстоянием Кука больше 1 считается наблюдением с высоким рычагом.

В следующем примере показано, как рассчитать и интерпретировать расстояние Кука для заданного набора данных, чтобы обнаружить потенциально важные наблюдения.

Пример: обнаружение влиятельных наблюдений

Предположим, у нас есть следующий набор данных с 14 значениями:

Теперь предположим, что мы подгоняем простую модель линейной регрессии.Результат регрессии показан ниже:

Используя статистическое программное обеспечение, мы можем рассчитать следующие значения расстояния Кука для каждого наблюдения:

Обратите внимание, что последнее наблюдение имеет значение расстояния Кука, значительно превышающее 1, что говорит нам о том, что это важное наблюдение.

Предположим, мы удалим это значение из набора данных и подгоним новую простую модель линейной регрессии. Результат для этой модели показан ниже:

Обратите внимание, что коэффициенты регрессии для точки пересечения и x резко изменились. Это говорит нам о том, что удаление влиятельного наблюдения из набора данных полностью изменило подогнанную модель регрессии.

На следующих графиках показана разница между этими двумя подобранными уравнениями регрессии:

Обратите внимание, насколько одно влиятельное наблюдение меняет линию регрессии. Удалив это наблюдение, мы смогли найти линию регрессии, которая гораздо лучше соответствует данным.

Заметки

Важно отметить, что расстояние Кука следует использовать как способ выявления потенциально важных наблюдений. Однако тот факт, что наблюдение оказывает влияние, не обязательно означает, что его следует удалить из набора данных.

Во-первых, вы должны убедиться, что наблюдение не является результатом ошибки ввода данных или какого-либо другого странного события. Если окажется, что это допустимое значение, вы можете решить поступить с ним одним из следующих способов:

  • Удалите его из набора данных.
  • Оставьте его в наборе данных.
  • Замените его альтернативным значением, таким как среднее значение или медиана.

В зависимости от вашего конкретного сценария один из этих вариантов может иметь больше смысла, чем другие.

Как рассчитать расстояние Кука на практике

В следующих руководствах объясняется, как рассчитать расстояние Кука для заданного набора данных в Python и R:

Как рассчитать расстояние Кука в Python
Как рассчитать расстояние Кука в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.