Как выполнить исследовательский анализ данных в Excel


Одним из первых шагов любого проекта по анализу данных является исследовательский анализ данных .

Это включает в себя изучение набора данных тремя способами:

1. Обобщение набора данных с использованием описательной статистики.

2. Визуализация набора данных с помощью диаграмм.

3. Определение пропущенных значений.

Выполняя эти три действия, вы можете понять, как распределяются значения в наборе данных, и обнаружить любые проблемные значения, прежде чем приступить к проверке гипотезы , подбору регрессионной модели или статистическому моделированию.

В следующем пошаговом примере показано, как выполнить исследовательский анализ данных в Excel.

Шаг 1: Создайте набор данных

Во-первых, давайте создадим простой набор данных, содержащий информацию о 10 разных баскетболистах:

Этот набор данных содержит три переменные (очки, подборы, передачи), и некоторые из переменных имеют пустые значения или значения NA, что часто встречается в реальных наборах данных.

Шаг 2: суммируйте данные

Затем мы можем рассчитать среднее, медиану, квартили, минимальное и максимальное значения для каждой из трех переменных в этом наборе данных:

Вот формула, которую мы использовали для каждой ячейки в столбце B:

  • B13 : =СРЕДНЕЕ( B2:B11 )
  • B14 : =МЕДИАНА( B2:B11 )
  • B15 : =КВАРТИЛЬ( B2:B11 , 1)
  • B16 : =КВАРТИЛЬ( B2:B11 , 3)
  • B17 : = МИН( B2:B11 )
  • B18 : =МАКС( B2:B11 )

Затем мы перетащили каждую формулу вправо, чтобы можно было вычислить одни и те же показатели для значений в столбцах C и D.

Вычисляя эти описательные статистики для каждой переменной, мы можем получить хорошее представление о распределении значений для каждой переменной.

Примечание.Каждая формула автоматически игнорирует пустые значения или значения NA при расчете каждой описательной статистики.

Шаг 3: Визуализируйте данные

Мы также можем создавать диаграммы для визуализации значений в наборе данных.

Например, чтобы визуализировать распределение значений для переменной Points, мы можем выделить значения в диапазоне ячеек B2:B11 , затем щелкнуть вкладку « Вставка » на верхней ленте, а затем щелкнуть значок « Гистограмма » в группе « Диаграммы »:

Следующая гистограмма будет создана автоматически:

Эта гистограмма позволяет визуализировать распределение очков, набранных игроками.

Например, мы можем видеть:

  • 4 игрока набрали от 10 до 15 очков.
  • 1 игрок набрал от 15 до 20 очков.
  • 2 игрока набрали от 20 до 25 очков.
  • 3 игрока набрали от 25 до 30 очков.

Мы можем повторить этот процесс для каждой переменной в нашем наборе данных, чтобы визуализировать распределение значений для каждой переменной.

Шаг 4. Определите недостающие значения

Мы также можем использовать следующую формулу для подсчета количества пропущенных значений в столбце B:

=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Мы можем ввести эту формулу в ячейку B19 , а затем перетащить ее вправо, чтобы вычислить количество пропущенных значений для каждой переменной в наборе данных:

Из вывода мы видим:

  • В столбце Баллы отсутствует 0 значений.
  • В столбце Rebounds отсутствуют 2 значения.
  • В столбце «Помощь» отсутствует 1 значение.

Теперь мы завершили базовый исследовательский анализ данных в этом наборе данных и получили довольно хорошее представление о том, как распределяются значения для каждой переменной в этом наборе данных.

Связанный: Как заменить пустые ячейки нулем в Excel

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как рассчитать сводку из пяти чисел в Excel
Как рассчитать среднее по группе в Excel
Как рассчитать максимальное значение по группе в Excel