Одним из первых шагов любого проекта по анализу данных является исследовательский анализ данных .
Это включает в себя изучение набора данных тремя способами:
1. Обобщение набора данных с использованием описательной статистики.
2. Визуализация набора данных с помощью диаграмм.
3. Определение пропущенных значений.
Выполняя эти три действия, вы можете понять, как распределяются значения в наборе данных, и обнаружить любые проблемные значения, прежде чем приступить к проверке гипотезы , подбору регрессионной модели или статистическому моделированию.
В следующем пошаговом примере показано, как выполнить исследовательский анализ данных в Excel.
Шаг 1: Создайте набор данных
Во-первых, давайте создадим простой набор данных, содержащий информацию о 10 разных баскетболистах:

Этот набор данных содержит три переменные (очки, подборы, передачи), и некоторые из переменных имеют пустые значения или значения NA, что часто встречается в реальных наборах данных.
Шаг 2: суммируйте данные
Затем мы можем рассчитать среднее, медиану, квартили, минимальное и максимальное значения для каждой из трех переменных в этом наборе данных:

Вот формула, которую мы использовали для каждой ячейки в столбце B:
- B13 : =СРЕДНЕЕ( B2:B11 )
- B14 : =МЕДИАНА( B2:B11 )
- B15 : =КВАРТИЛЬ( B2:B11 , 1)
- B16 : =КВАРТИЛЬ( B2:B11 , 3)
- B17 : = МИН( B2:B11 )
- B18 : =МАКС( B2:B11 )
Затем мы перетащили каждую формулу вправо, чтобы можно было вычислить одни и те же показатели для значений в столбцах C и D.
Вычисляя эти описательные статистики для каждой переменной, мы можем получить хорошее представление о распределении значений для каждой переменной.
Примечание.Каждая формула автоматически игнорирует пустые значения или значения NA при расчете каждой описательной статистики.
Шаг 3: Визуализируйте данные
Мы также можем создавать диаграммы для визуализации значений в наборе данных.
Например, чтобы визуализировать распределение значений для переменной Points, мы можем выделить значения в диапазоне ячеек B2:B11 , затем щелкнуть вкладку « Вставка » на верхней ленте, а затем щелкнуть значок « Гистограмма » в группе « Диаграммы »:

Следующая гистограмма будет создана автоматически:

Эта гистограмма позволяет визуализировать распределение очков, набранных игроками.
Например, мы можем видеть:
- 4 игрока набрали от 10 до 15 очков.
- 1 игрок набрал от 15 до 20 очков.
- 2 игрока набрали от 20 до 25 очков.
- 3 игрока набрали от 25 до 30 очков.
Мы можем повторить этот процесс для каждой переменной в нашем наборе данных, чтобы визуализировать распределение значений для каждой переменной.
Шаг 4. Определите недостающие значения
Мы также можем использовать следующую формулу для подсчета количества пропущенных значений в столбце B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Мы можем ввести эту формулу в ячейку B19 , а затем перетащить ее вправо, чтобы вычислить количество пропущенных значений для каждой переменной в наборе данных:

Из вывода мы видим:
- В столбце Баллы отсутствует 0 значений.
- В столбце Rebounds отсутствуют 2 значения.
- В столбце «Помощь» отсутствует 1 значение.
Теперь мы завершили базовый исследовательский анализ данных в этом наборе данных и получили довольно хорошее представление о том, как распределяются значения для каждой переменной в этом наборе данных.
Связанный: Как заменить пустые ячейки нулем в Excel
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:
Как рассчитать сводку из пяти чисел в Excel
Как рассчитать среднее по группе в Excel
Как рассчитать максимальное значение по группе в Excel