Как выполнить исследовательский анализ данных в Excel

Как выполнить исследовательский анализ данных в Excel

Одним из первых шагов любого проекта по анализу данных является исследовательский анализ данных .

Это включает в себя изучение набора данных тремя способами:

1. Обобщение набора данных с использованием описательной статистики.

2. Визуализация набора данных с помощью диаграмм.

3. Определение пропущенных значений.

Выполняя эти три действия, вы можете понять, как распределяются значения в наборе данных, и обнаружить любые проблемные значения, прежде чем приступить к проверке гипотезы , подбору регрессионной модели или статистическому моделированию.

В следующем пошаговом примере показано, как выполнить исследовательский анализ данных в Excel.

Шаг 1: Создайте набор данных

Во-первых, давайте создадим простой набор данных, содержащий информацию о 10 разных баскетболистах:

Этот набор данных содержит три переменные (очки, подборы, передачи), и некоторые из переменных имеют пустые значения или значения NA, что часто встречается в реальных наборах данных.

Шаг 2: суммируйте данные

Затем мы можем рассчитать среднее, медиану, квартили, минимальное и максимальное значения для каждой из трех переменных в этом наборе данных:

Вот формула, которую мы использовали для каждой ячейки в столбце B:

  • B13 : =СРЕДНЕЕ( B2:B11 )
  • B14 : =МЕДИАНА( B2:B11 )
  • B15 : =КВАРТИЛЬ( B2:B11 , 1)
  • B16 : =КВАРТИЛЬ( B2:B11 , 3)
  • B17 : = МИН( B2:B11 )
  • B18 : =МАКС( B2:B11 )

Затем мы перетащили каждую формулу вправо, чтобы можно было вычислить одни и те же показатели для значений в столбцах C и D.

Вычисляя эти описательные статистики для каждой переменной, мы можем получить хорошее представление о распределении значений для каждой переменной.

Примечание.Каждая формула автоматически игнорирует пустые значения или значения NA при расчете каждой описательной статистики.

Шаг 3: Визуализируйте данные

Мы также можем создавать диаграммы для визуализации значений в наборе данных.

Например, чтобы визуализировать распределение значений для переменной Points, мы можем выделить значения в диапазоне ячеек B2:B11 , затем щелкнуть вкладку « Вставка » на верхней ленте, а затем щелкнуть значок « Гистограмма » в группе « Диаграммы »:

Следующая гистограмма будет создана автоматически:

Эта гистограмма позволяет визуализировать распределение очков, набранных игроками.

Например, мы можем видеть:

  • 4 игрока набрали от 10 до 15 очков.
  • 1 игрок набрал от 15 до 20 очков.
  • 2 игрока набрали от 20 до 25 очков.
  • 3 игрока набрали от 25 до 30 очков.

Мы можем повторить этот процесс для каждой переменной в нашем наборе данных, чтобы визуализировать распределение значений для каждой переменной.

Шаг 4. Определите недостающие значения

Мы также можем использовать следующую формулу для подсчета количества пропущенных значений в столбце B:

=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Мы можем ввести эту формулу в ячейку B19 , а затем перетащить ее вправо, чтобы вычислить количество пропущенных значений для каждой переменной в наборе данных:

Из вывода мы видим:

  • В столбце Баллы отсутствует 0 значений.
  • В столбце Rebounds отсутствуют 2 значения.
  • В столбце «Помощь» отсутствует 1 значение.

Теперь мы завершили базовый исследовательский анализ данных в этом наборе данных и получили довольно хорошее представление о том, как распределяются значения для каждой переменной в этом наборе данных.

Связанный: Как заменить пустые ячейки нулем в Excel

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как рассчитать сводку из пяти чисел в Excel
Как рассчитать среднее по группе в Excel
Как рассчитать максимальное значение по группе в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.