Расстояние Махаланобиса — это расстояние между двумя точками в многомерном пространстве. Он часто используется для поиска выбросов в статистическом анализе, включающем несколько переменных.
В этом руководстве объясняется, как рассчитать расстояние Махаланобиса в SPSS.
Пример: расстояние Махаланобиса в SPSS
Предположим, у нас есть следующий набор данных, который отображает экзаменационные баллы 20 студентов, а также количество часов, которые они потратили на учебу, количество сданных подготовительных экзаменов и их текущую оценку по курсу:
Мы можем использовать следующие шаги, чтобы вычислить расстояние Махаланобиса для каждого наблюдения в наборе данных, чтобы определить, есть ли какие-либо многомерные выбросы.
Шаг 1: Выберите вариант линейной регрессии.
Перейдите на вкладку « Анализ », затем « Регрессия », затем « Линейный »:
Шаг 2: Выберите вариант Махаланобиса.
Перетащите оценку переменной ответа в поле с надписью Зависимая. Перетащите три другие переменные-предикторы в поле с надписью Independent(s). Затем нажмите кнопку Сохранить.В новом всплывающем окне убедитесь, что флажок рядом с Mahalanobis установлен. Затем нажмите «Продолжить».Затем нажмите ОК .
После того, как вы нажмете OK , расстояние Махаланобиса для каждого наблюдения в наборе данных появится в новом столбце под названием MAH_1 :
Мы можем видеть, что некоторые из расстояний намного больше, чем другие. Чтобы определить, является ли какое-либо из расстояний статистически значимым, нам нужно рассчитать их p-значения.
Шаг 3: Рассчитайте p-значения каждого расстояния Махаланобиса.
Перейдите на вкладку « Преобразование », затем « Вычислить переменную ».
В поле Целевая переменная выберите новое имя для создаваемой переменной. Мы выбрали «pvalue». В поле « Числовое выражение » введите следующее:
1 – CDF.CHISQ(MAH_1, 3)
Затем нажмите ОК .
Это даст значение p, соответствующее значению хи-квадрата с 3 степенями свободы. Мы используем 3 степени свободы, потому что в нашей регрессионной модели есть 3 переменные-предикторы.
Шаг 4: Интерпретируйте p-значения.
Как только вы нажмете OK , значение p для каждого расстояния Махаланобиса будет отображаться в новом столбце:
По умолчанию SPSS отображает p-значения только до двух знаков после запятой. Вы можете увеличить количество знаков после запятой, щелкнув « Вид переменных » в нижней части SPSS и увеличив число в столбце « Десятичные числа»:
Когда вы вернетесь в представление данных , вы увидите каждое значение p с точностью до пяти знаков после запятой. Любое значение p, которое меньше 0,001 , считается выбросом.
Мы видим, что первое наблюдение является единственным выбросом в наборе данных, потому что его значение p меньше 0,001:
Как обращаться с выбросами
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение данных было введено правильно и что это не ошибка.
2. Удалите выброс.
Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.