В статистике необработанные данные — это данные, собранные непосредственно из первоисточника и никаким образом не обработанные.
В любом проекте анализа данных первым шагом является сбор необработанных данных. После того, как эти данные собраны, их можно очистить, преобразовать, обобщить и визуализировать.
Весь смысл сбора необработанных данных заключается в том, чтобы в конечном итоге использовать их для лучшего понимания некоторых явлений или использовать их для построения какой-либо прогностической модели.

В следующем примере показано, как необработанные данные можно собирать и использовать в реальной жизни.
Пример: сбор и использование необработанных данных
Одной из областей, в которой часто собираются необработанные данные, является спорт. Например, необработанные данные могут быть собраны для различных статистических данных о профессиональных баскетболистах.
Шаг 1: Соберите необработанные данные
Представьте, что баскетбольный скаут собирает следующие необработанные данные для 10 игроков профессиональной баскетбольной команды:

Этот набор данных представляет собой необработанные данные , поскольку они собираются непосредственно разведчиком и не очищались и не обрабатывались каким-либо образом.
Шаг 2: Очистите необработанные данные
Прежде чем использовать эти данные для создания сводных таблиц, диаграмм или чего-либо еще, скаут сначала удалит все отсутствующие значения и очистит все «грязные» значения данных.
Например, мы можем обнаружить в наборе данных несколько значений, которые необходимо преобразовать или удалить:

Разведчик может решить полностью удалить последнюю строку, поскольку в ней есть несколько пропущенных значений. Затем он может также очистить значения символов в наборе данных, чтобы получить следующие «чистые» данные:

Шаг 3: Суммируйте данные
После очистки данных разведчик может обобщить каждую переменную в наборе данных. Например, он мог рассчитать следующую сводную статистику для переменной «Минуты»:
- Среднее значение : 24 минуты
- Медиана : 22 минуты
- Стандартное отклонение : 9,45 минут
Шаг 4: Визуализируйте данные
Затем разведчик может визуализировать переменные в наборе данных, чтобы лучше понять значения данных.
Например, он может создать следующую гистограмму, чтобы визуализировать общее количество минут, сыгранных каждым игроком:

Или он мог построить следующую диаграмму рассеяния, чтобы визуализировать взаимосвязь между сыгранными минутами и набранными очками:

Каждый из этих типов диаграмм может помочь ему понять данные.
Шаг 5: Используйте данные для построения модели
Наконец, после того, как данные были очищены, скаут может принять решение о применении какой-либо прогностической модели.
Например, он может подобрать простую модель линейной регрессии и использовать количество сыгранных минут для прогнозирования общего количества очков, набранных каждым игроком.

Подходящее уравнение регрессии:
Очки = 8,7012 + 0,2717 * (минуты)
Затем скаут может использовать это уравнение, чтобы предсказать количество очков, которое наберет игрок, исходя из количества сыгранных минут. Например, прогнозируется, что спортсмен, который играет 30 минут, наберет 16,85 балла:
Баллы = 8,7012 + 0,2717 * (30) = 16,85.
Дополнительные ресурсы
Почему важна статистика?
Почему размер выборки важен в статистике?
Что такое наблюдение в статистике?
Что такое табличные данные в статистике?