Как выполнить одномерный анализ в Python (с примерами)

Как выполнить одномерный анализ в Python (с примерами)

Термин одномерный анализ относится к анализу одной переменной. Вы можете запомнить это, потому что приставка «уни» означает «один».

Существует три распространенных способа выполнения одномерного анализа одной переменной:

1. Сводная статистика – измеряет центр и разброс значений.

2. Таблица частот – описывает, как часто встречаются разные значения.

3. Диаграммы — используются для визуализации распределения значений.

В этом руководстве представлен пример выполнения одномерного анализа со следующим кадром данных pandas:

import pandas as pd

#create DataFrame
df = pd.DataFrame({'points': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
 'assists': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
 'rebounds': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df.head ()

 points assists rebounds
0 1.0 5 11
1 1.0 7 8
2 2.0 7 10
3 3.5 9 6
4 4.0 12 6

1. Рассчитать сводную статистику

Мы можем использовать следующий синтаксис для вычисления различных сводных статистических данных для переменной 'points' в DataFrame:

#calculate mean of 'points'
df['points'].mean()

5.706666666666667

#calculate median of 'points' 
df['points']. median () 

5.0

#calculate standard deviation of 'points'
df['points']. std() 

3.858287308169384

2. Создайте таблицу частот

Мы можем использовать следующий синтаксис для создания таблицы частот для переменной «точки»:

#create frequency table for 'points'
df['points']. value_counts ()

4.0 3
1.0 2
5.0 2
2.0 1
3.5 1
6.5 1
7.0 1
7.4 1
8.0 1
13.0 1
14.2 1
Name: points, dtype: int64

Это говорит нам о том, что:

  • Значение 4 встречается 3 раза
  • Значение 1 встречается 2 раза
  • Значение 5 встречается 2 раза
  • Значение 2 встречается 1 раз

И так далее.

Связанный: Как создать частотные таблицы в Python

3. Создайте диаграммы

Мы можем использовать следующий синтаксис, чтобы создать коробчатую диаграмму для переменной «точки»:

import matplotlib.pyplot as plt

df.boxplot(column=['points'], grid= False , color='black')

Связанный: Как создать Boxplot из Pandas DataFrame

Мы можем использовать следующий синтаксис для создания гистограммы для переменной «точки»:

import matplotlib.pyplot as plt

df.hist (column='points', grid= False , edgecolor='black')

Связанный: Как создать гистограмму из Pandas DataFrame

Мы можем использовать следующий синтаксис для создания кривой плотности для переменной 'points':

import seaborn as sns

sns.kdeplot(df['points'])

Связанный: Как создать график плотности в Matplotlib

Каждая из этих диаграмм дает нам уникальный способ визуализации распределения значений переменной «точки».

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.