Как использовать функцию description() в Pandas (с примерами)


Вы можете использовать функцию описать() для создания описательной статистики для кадра данных pandas.

Эта функция использует следующий базовый синтаксис:

df.describe ()

В следующих примерах показано, как использовать этот синтаксис на практике со следующими пандами DataFrame:

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
 'points': [25, 12, 15, 14, 19, 23, 25, 29],
 'assists': [5, 7, 7, 9, 12, 9, 9, 4],
 'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

 team points assists rebounds
0 A 25 5 11
1 A 12 7 8
2 B 15 7 10
3 B 14 9 6
4 B 19 12 6
5 C 23 9 5
6 C 25 9 9
7 C 29 4 12

Пример 1: описание всех числовых столбцов

По умолчанию функция description () генерирует описательную статистику только для числовых столбцов в кадре данных pandas:

#generate descriptive statistics for all numeric columns
df.describe ()

 points assists rebounds
count 8.000000 8.00000 8.000000
mean 20.250000 7.75000 8.375000
std 6.158618 2.54951 2.559994
min 12.000000 4.00000 5.000000
25% 14.750000 6.50000 6.000000
50% 21.000000 8.00000 8.500000
75% 25.000000 9.00000 10.250000
max 29.000000 12.00000 12.000000

Описательная статистика отображается для трех числовых столбцов в DataFrame.

Примечание. Если в каких-либо столбцах отсутствуют значения, Pandas автоматически исключат эти значения при расчете описательной статистики.

Пример 2: описание всех столбцов

Чтобы рассчитать описательную статистику для каждого столбца в DataFrame, мы можем использовать аргумент include='all' :

#generate descriptive statistics for all columns
df.describe (include='all')

 team points assists rebounds
count 8 8.000000 8.00000 8.000000
unique 3 NaN NaN NaN
top B NaN NaN NaN
freq 3 NaN NaN NaN
mean NaN 20.250000 7.75000 8.375000
std NaN 6.158618 2.54951 2.559994
min NaN 12.000000 4.00000 5.000000
25% NaN 14.750000 6.50000 6.000000
50% NaN 21.000000 8.00000 8.500000
75% NaN 25.000000 9.00000 10.250000
max NaN 29.000000 12.00000 12.000000

Пример 3: описание конкретных столбцов

В следующем коде показано, как рассчитать описательную статистику для одного конкретного столбца в кадре данных pandas:

#calculate descriptive statistics for 'points' column only
df['points']. describe ()

count 8.000000
mean 20.250000
std 6.158618
min 12.000000
25% 14.750000
50% 21.000000
75% 25.000000
max 29.000000
Name: points, dtype: float64

В следующем коде показано, как рассчитать описательную статистику для нескольких определенных столбцов:

#calculate descriptive statistics for 'points' and 'assists' columns only
df[['points', 'assists']]. describe ()

 points assists
count 8.000000 8.00000
mean 20.250000 7.75000
std 6.158618 2.54951
min 12.000000 4.00000
25% 14.750000 6.50000
50% 21.000000 8.00000
75% 25.000000 9.00000
max 29.000000 12.00000

Вы можете найти полную документацию для функции description() здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные функции в pandas:

Pandas: как найти уникальные значения в столбце
Pandas: как найти разницу между двумя строками
Pandas: как подсчитать пропущенные значения в DataFrame