Часто при сборе данных исследователи могут решить подвергнуть цензуре или урезать определенные значения.
Цензурировать значения данных означает собирать только частичную информацию о значениях, которые ниже или выше определенного значения.
Например, мы можем знать, что человек зарабатывает менее 25 000 долларов в год, но мы можем не знать его точный годовой доход.
Усечение значений данных означает удаление из набора данных значений, которые ниже или выше определенного значения.
Например, исследователь может быть заинтересован только в изучении лиц, которые зарабатывают более 25 000 долларов в год. Таким образом, любые лица, зарабатывающие менее 25 000 долларов, просто удаляются из набора данных.
В этом руководстве приведены несколько примеров, когда данные могут подвергаться цензуре или усекаться.
Цензура данных
Цензурировать значения данных означает собирать только частичную информацию о значениях, которые ниже или выше определенного значения.
Следующие примеры иллюстрируют сценарии, в которых мы можем принять решение подвергнуть цензуре значения данных.
Пример 1: Годовой доход
Предположим, исследователь собирает данные опроса о годовом доходе. Если человек зарабатывает менее 25 000 долларов в год, он решает указать этот доход как «< 25 000 долларов» в базе данных, а не указывать точный годовой доход.
Это пример цензуры данных, потому что мы знаем, что человек зарабатывает меньше определенной суммы, но мы не знаем его точный годовой доход.
Пример 2: Уровни загрязнения
Предположим, биолог использует определенный инструмент для измерения уровня загрязнения в различных водоемах. Ее инструмент не способен измерить загрязнение ниже 0,002 частей на миллион. Таким образом, любой водоем с уровнем загрязнения ниже этого порога будет просто указан как «<0,002», а не как точное количество.
Это пример цензуры данных, потому что мы знаем, что некоторые водоемы имеют уровень загрязнения ниже 0,002 частей на миллион, но мы не знаем их точных уровней загрязнения.
Усечение данных
Усечение значений данных означает удаление из набора данных значений, которые ниже или выше определенного значения.
Следующие примеры иллюстрируют сценарии, в которых мы можем принять решение об усечении значений данных.
Пример 1: Количество преступлений
Предположим, сотрудник правоохранительных органов исследует виды преступлений, совершенных отдельными лицами в определенной местности. По умолчанию любое лицо, совершившее 0 преступлений, не будет включено в набор данных, поскольку оно не совершало никаких преступлений.
Это пример усечения данных, поскольку любое лицо, совершившее 0 преступлений, просто полностью исключается из набора данных.
Пример 2: Уровень образования
Предположим, профессор хочет изучить взаимосвязь между определенной учебной программой и успеваемостью студентов.
Из-за интенсивности учебной программы профессор хочет контролировать только студентов, средний балл которых в настоящее время превышает 3,5. Таким образом, любой студент, подавший заявку на программу, но имеющий средний балл менее 3,5, просто не будет включен в программу.
Это представляет собой пример усечения данных, поскольку любой человек, средний балл которого ниже определенного порога, просто исключается из набора данных.
Резюме
Цензурировать данные означает собирать только частичную информацию о значениях данных, а усекать данные означает полностью удалять значения данных из набора данных.
Как цензура, так и усечение приводят к потере информации в наборе данных, но усечение приводит к большей потере информации, поскольку включает полное исключение определенных значений данных.