В статистике z-показатель говорит нам, на сколько стандартных отклонений значение отличается от среднего.Мы используем следующую формулу для расчета z-показателя:
Z-оценка = (x i - μ) / σ
куда:
- x i : одно значение данных
- μ: среднее значение набора данных
- σ: стандартное отклонение набора данных
Z-оценки часто используются для обнаружения выбросов в наборе данных. Например, наблюдения с z-показателем меньше -3 или больше 3 часто считаются выбросами.
Однако на z-показатели могут влиять необычно большие или малые значения данных, поэтому более надежным способом обнаружения выбросов является использование модифицированного z-показателя , который рассчитывается как:
Модифицированный z-показатель = 0,6745 (x i - x̃) / MAD
куда:
- x i : одно значение данных
- x̃: медиана набора данных
- MAD: среднее абсолютное отклонение набора данных.
Модифицированный z-показатель более надежен, поскольку он использует медиану для расчета z-показателей, а не среднее значение, накоторое, как известно, влияют выбросы .
Иглевич и Хоаглин рекомендуют, чтобы значения с измененными z-показателями меньше -3,5 или больше 3,5 помечались как потенциальные выбросы.
В следующем пошаговом примере показано, как рассчитать модифицированные z-значения для заданного набора данных.
Шаг 1: Создайте данные
Предположим, у нас есть следующий набор данных с 16 значениями:

Шаг 2: Найдите медиану
Далее найдем медиану. Это представляет собой среднюю точку в наборе данных, которая оказывается равной 16 .
Шаг 3: Найдите абсолютную разницу между каждым значением и медианой
Далее мы найдем абсолютную разницу между каждым отдельным значением данных и медианой. Например, абсолютная разница между первым значением данных и медианой рассчитывается как:
Абсолютная разница = |6 – 16| = 10
Мы можем использовать ту же формулу для вычисления абсолютной разницы между каждым отдельным значением данных и медианой:

Шаг 4: Найдите срединное абсолютное отклонение
Далее мы найдем среднее абсолютное отклонение. Это медиана второго столбца, которая оказывается равной 8 .
Шаг 5. Найдите модифицированный Z-показатель для каждого значения данных
Наконец, мы можем рассчитать модифицированный z-показатель для каждого значения данных, используя следующую формулу:
Модифицированный z-показатель = 0,6745 (x i - x̃) / MAD
Например, модифицированный z-показатель для первого значения данных рассчитывается как:
Модифицированный z-показатель = 0,6745*(6-16)/8 = -0,843
Мы можем повторить эту формулу для каждого значения в наборе данных:

Мы видим, что ни одно значение в наборе данных не имеет модифицированного z-показателя меньше -3,5 или больше 3,5, поэтому мы не будем помечать какое-либо значение в этом наборе данных как потенциальное отклонение.
Как обращаться с выбросами
Если в вашем наборе данных присутствует выброс, у вас есть несколько вариантов:
- Убедитесь, что выброс не является результатом ошибки ввода данных. Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.
- Присвойте новое значение выбросу.Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.
- Удалите выброс. Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.