Что такое модифицированный Z-показатель? (Определение и пример)

Что такое модифицированный Z-показатель? (Определение и пример)

В статистике z-показатель говорит нам, на сколько стандартных отклонений значение отличается от среднего.Мы используем следующую формулу для расчета z-показателя:

Z-оценка = (x i - μ) / σ

куда:

  • x i : одно значение данных
  • μ: среднее значение набора данных
  • σ: стандартное отклонение набора данных

Z-оценки часто используются для обнаружения выбросов в наборе данных. Например, наблюдения с z-показателем меньше -3 или больше 3 часто считаются выбросами.

Однако на z-показатели могут влиять необычно большие или малые значения данных, поэтому более надежным способом обнаружения выбросов является использование модифицированного z-показателя , который рассчитывается как:

Модифицированный z-показатель = 0,6745 (x i - x̃) / MAD

куда:

  • x i : одно значение данных
  • x̃: медиана набора данных
  • MAD: среднее абсолютное отклонение набора данных.

Модифицированный z-показатель более надежен, поскольку он использует медиану для расчета z-показателей, а не среднее значение, накоторое, как известно, влияют выбросы .

Иглевич и Хоаглин рекомендуют, чтобы значения с измененными z-показателями меньше -3,5 или больше 3,5 помечались как потенциальные выбросы.

В следующем пошаговом примере показано, как рассчитать модифицированные z-значения для заданного набора данных.

Шаг 1: Создайте данные

Предположим, у нас есть следующий набор данных с 16 значениями:

Шаг 2: Найдите медиану

Далее найдем медиану. Это представляет собой среднюю точку в наборе данных, которая оказывается равной 16 .

Шаг 3: Найдите абсолютную разницу между каждым значением и медианой

Далее мы найдем абсолютную разницу между каждым отдельным значением данных и медианой. Например, абсолютная разница между первым значением данных и медианой рассчитывается как:

Абсолютная разница = |6 – 16| = 10

Мы можем использовать ту же формулу для вычисления абсолютной разницы между каждым отдельным значением данных и медианой:

Шаг 4: Найдите срединное абсолютное отклонение

Далее мы найдем среднее абсолютное отклонение. Это медиана второго столбца, которая оказывается равной 8 .

Шаг 5. Найдите модифицированный Z-показатель для каждого значения данных

Наконец, мы можем рассчитать модифицированный z-показатель для каждого значения данных, используя следующую формулу:

Модифицированный z-показатель = 0,6745 (x i - x̃) / MAD

Например, модифицированный z-показатель для первого значения данных рассчитывается как:

Модифицированный z-показатель = 0,6745*(6-16)/8 = -0,843

Мы можем повторить эту формулу для каждого значения в наборе данных:

Мы видим, что ни одно значение в наборе данных не имеет модифицированного z-показателя меньше -3,5 или больше 3,5, поэтому мы не будем помечать какое-либо значение в этом наборе данных как потенциальное отклонение.

Как обращаться с выбросами

Если в вашем наборе данных присутствует выброс, у вас есть несколько вариантов:

  • Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.
  • Присвойте новое значение выбросу.Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.
  • Удалите выброс. Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.