Как рассчитать расстояние Махаланобиса в SPSS

Как рассчитать расстояние Махаланобиса в SPSS

Расстояние Махаланобиса — это расстояние между двумя точками в многомерном пространстве. Он часто используется для поиска выбросов в статистическом анализе, включающем несколько переменных.

В этом руководстве объясняется, как рассчитать расстояние Махаланобиса в SPSS.

Пример: расстояние Махаланобиса в SPSS

Предположим, у нас есть следующий набор данных, который отображает экзаменационные баллы 20 студентов, а также количество часов, которые они потратили на учебу, количество сданных подготовительных экзаменов и их текущую оценку по курсу:

Мы можем использовать следующие шаги, чтобы вычислить расстояние Махаланобиса для каждого наблюдения в наборе данных, чтобы определить, есть ли какие-либо многомерные выбросы.

Шаг 1: Выберите вариант линейной регрессии.

Перейдите на вкладку « Анализ », затем « Регрессия », затем « Линейный »:

Шаг 2: Выберите вариант Махаланобиса.

Перетащите оценку переменной ответа в поле с надписью Зависимая. Перетащите три другие переменные-предикторы в поле с надписью Independent(s). Затем нажмите кнопку Сохранить.В новом всплывающем окне убедитесь, что флажок рядом с Mahalanobis установлен. Затем нажмите «Продолжить».Затем нажмите ОК .

Расстояние Махаланобиса в SPSS

После того, как вы нажмете OK , расстояние Махаланобиса для каждого наблюдения в наборе данных появится в новом столбце под названием MAH_1 :

Мы можем видеть, что некоторые из расстояний намного больше, чем другие. Чтобы определить, является ли какое-либо из расстояний статистически значимым, нам нужно рассчитать их p-значения.

Шаг 3: Рассчитайте p-значения каждого расстояния Махаланобиса.

Перейдите на вкладку « Преобразование », затем « Вычислить переменную ».

В поле Целевая переменная выберите новое имя для создаваемой переменной. Мы выбрали «pvalue». В поле « Числовое выражение » введите следующее:

1 – CDF.CHISQ(MAH_1, 3)

Затем нажмите ОК .

Это даст значение p, соответствующее значению хи-квадрата с 3 степенями свободы. Мы используем 3 степени свободы, потому что в нашей регрессионной модели есть 3 переменные-предикторы.

Шаг 4: Интерпретируйте p-значения.

Как только вы нажмете OK , значение p для каждого расстояния Махаланобиса будет отображаться в новом столбце:

P-значения для расстояния Махаланобиса в SPSS

По умолчанию SPSS отображает p-значения только до двух знаков после запятой. Вы можете увеличить количество знаков после запятой, щелкнув « Вид переменных » в нижней части SPSS и увеличив число в столбце « Десятичные числа»:

Когда вы вернетесь в представление данных , вы увидите каждое значение p с точностью до пяти знаков после запятой. Любое значение p, которое меньше 0,001 , считается выбросом.

Мы видим, что первое наблюдение является единственным выбросом в наборе данных, потому что его значение p меньше 0,001:

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение данных было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.