Как рассчитать расстояние Махаланобиса в SPSS


Расстояние Махаланобиса — это расстояние между двумя точками в многомерном пространстве. Он часто используется для поиска выбросов в статистическом анализе, включающем несколько переменных.

В этом руководстве объясняется, как рассчитать расстояние Махаланобиса в SPSS.

Пример: расстояние Махаланобиса в SPSS

Предположим, у нас есть следующий набор данных, который отображает экзаменационные баллы 20 студентов, а также количество часов, которые они потратили на учебу, количество сданных подготовительных экзаменов и их текущую оценку по курсу:

Мы можем использовать следующие шаги, чтобы вычислить расстояние Махаланобиса для каждого наблюдения в наборе данных, чтобы определить, есть ли какие-либо многомерные выбросы.

Шаг 1: Выберите вариант линейной регрессии.

Перейдите на вкладку « Анализ », затем « Регрессия », затем « Линейный »:

Шаг 2: Выберите вариант Махаланобиса.

Перетащите оценку переменной ответа в поле с надписью Зависимая. Перетащите три другие переменные-предикторы в поле с надписью Independent(s). Затем нажмите кнопку Сохранить.В новом всплывающем окне убедитесь, что флажок рядом с Mahalanobis установлен. Затем нажмите «Продолжить».Затем нажмите ОК .

После того, как вы нажмете OK , расстояние Махаланобиса для каждого наблюдения в наборе данных появится в новом столбце под названием MAH_1 :

Мы можем видеть, что некоторые из расстояний намного больше, чем другие. Чтобы определить, является ли какое-либо из расстояний статистически значимым, нам нужно рассчитать их p-значения.

Шаг 3: Рассчитайте p-значения каждого расстояния Махаланобиса.

Перейдите на вкладку « Преобразование », затем « Вычислить переменную ».

В поле Целевая переменная выберите новое имя для создаваемой переменной. Мы выбрали «pvalue». В поле « Числовое выражение » введите следующее:

1 – CDF.CHISQ(MAH_1, 3)

Затем нажмите ОК .

Это даст значение p, соответствующее значению хи-квадрата с 3 степенями свободы. Мы используем 3 степени свободы, потому что в нашей регрессионной модели есть 3 переменные-предикторы.

Шаг 4: Интерпретируйте p-значения.

Как только вы нажмете OK , значение p для каждого расстояния Махаланобиса будет отображаться в новом столбце:

По умолчанию SPSS отображает p-значения только до двух знаков после запятой. Вы можете увеличить количество знаков после запятой, щелкнув « Вид переменных » в нижней части SPSS и увеличив число в столбце « Десятичные числа»:

Когда вы вернетесь в представление данных , вы увидите каждое значение p с точностью до пяти знаков после запятой. Любое значение p, которое меньше 0,001 , считается выбросом.

Мы видим, что первое наблюдение является единственным выбросом в наборе данных, потому что его значение p меньше 0,001:

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение данных было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.