Что считается необработанными данными? (Определение и примеры)

Что считается необработанными данными? (Определение и примеры)

В статистике необработанные данные — это данные, собранные непосредственно из первоисточника и никаким образом не обработанные.

В любом проекте анализа данных первым шагом является сбор необработанных данных. После того, как эти данные собраны, их можно очистить, преобразовать, обобщить и визуализировать.

Весь смысл сбора необработанных данных заключается в том, чтобы в конечном итоге использовать их для лучшего понимания некоторых явлений или использовать их для построения какой-либо прогностической модели.

В следующем примере показано, как необработанные данные можно собирать и использовать в реальной жизни.

Пример: сбор и использование необработанных данных

Одной из областей, в которой часто собираются необработанные данные, является спорт. Например, необработанные данные могут быть собраны для различных статистических данных о профессиональных баскетболистах.

Шаг 1: Соберите необработанные данные

Представьте, что баскетбольный скаут собирает следующие необработанные данные для 10 игроков профессиональной баскетбольной команды:

Этот набор данных представляет собой необработанные данные , поскольку они собираются непосредственно разведчиком и не очищались и не обрабатывались каким-либо образом.

Шаг 2: Очистите необработанные данные

Прежде чем использовать эти данные для создания сводных таблиц, диаграмм или чего-либо еще, скаут сначала удалит все отсутствующие значения и очистит все «грязные» значения данных.

Например, мы можем обнаружить в наборе данных несколько значений, которые необходимо преобразовать или удалить:

Разведчик может решить полностью удалить последнюю строку, поскольку в ней есть несколько пропущенных значений. Затем он может также очистить значения символов в наборе данных, чтобы получить следующие «чистые» данные:

Шаг 3: Суммируйте данные

После очистки данных разведчик может обобщить каждую переменную в наборе данных. Например, он мог рассчитать следующую сводную статистику для переменной «Минуты»:

  • Среднее значение : 24 минуты
  • Медиана : 22 минуты
  • Стандартное отклонение : 9,45 минут

Шаг 4: Визуализируйте данные

Затем разведчик может визуализировать переменные в наборе данных, чтобы лучше понять значения данных.

Например, он может создать следующую гистограмму, чтобы визуализировать общее количество минут, сыгранных каждым игроком:

Или он мог построить следующую диаграмму рассеяния, чтобы визуализировать взаимосвязь между сыгранными минутами и набранными очками:

Каждый из этих типов диаграмм может помочь ему понять данные.

Шаг 5: Используйте данные для построения модели

Наконец, после того, как данные были очищены, скаут может принять решение о применении какой-либо прогностической модели.

Например, он может подобрать простую модель линейной регрессии и использовать количество сыгранных минут для прогнозирования общего количества очков, набранных каждым игроком.

Подходящее уравнение регрессии:

Очки = 8,7012 + 0,2717 * (минуты)

Затем скаут может использовать это уравнение, чтобы предсказать количество очков, которое наберет игрок, исходя из количества сыгранных минут. Например, прогнозируется, что спортсмен, который играет 30 минут, наберет 16,85 балла:

Баллы = 8,7012 + 0,2717 * (30) = 16,85.

Дополнительные ресурсы

Почему важна статистика?
Почему размер выборки важен в статистике?
Что такое наблюдение в статистике?
Что такое табличные данные в статистике?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.