Как использовать функцию description() в Pandas (с примерами)


Вы можете использовать функцию описать() для создания описательной статистики для кадра данных pandas.

Эта функция использует следующий базовый синтаксис:

df.describe ()

В следующих примерах показано, как использовать этот синтаксис на практике со следующими пандами DataFrame:

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
 'points': [25, 12, 15, 14, 19, 23, 25, 29],
 'assists': [5, 7, 7, 9, 12, 9, 9, 4],
 'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

 team points assists rebounds
0 A 25 5 11
1 A 12 7 8
2 B 15 7 10
3 B 14 9 6
4 B 19 12 6
5 C 23 9 5
6 C 25 9 9
7 C 29 4 12

Пример 1: описание всех числовых столбцов

По умолчанию функция description () генерирует описательную статистику только для числовых столбцов в кадре данных pandas:

#generate descriptive statistics for all numeric columns
df.describe ()

 points assists rebounds
count 8.000000 8.00000 8.000000
mean 20.250000 7.75000 8.375000
std 6.158618 2.54951 2.559994
min 12.000000 4.00000 5.000000
25% 14.750000 6.50000 6.000000
50% 21.000000 8.00000 8.500000
75% 25.000000 9.00000 10.250000
max 29.000000 12.00000 12.000000

Описательная статистика отображается для трех числовых столбцов в DataFrame.

Примечание. Если в каких-либо столбцах отсутствуют значения, Pandas автоматически исключат эти значения при расчете описательной статистики.

Пример 2: описание всех столбцов

Чтобы рассчитать описательную статистику для каждого столбца в DataFrame, мы можем использовать аргумент include='all' :

#generate descriptive statistics for all columns
df.describe (include='all')

 team points assists rebounds
count 8 8.000000 8.00000 8.000000
unique 3 NaN NaN NaN
top B NaN NaN NaN
freq 3 NaN NaN NaN
mean NaN 20.250000 7.75000 8.375000
std NaN 6.158618 2.54951 2.559994
min NaN 12.000000 4.00000 5.000000
25% NaN 14.750000 6.50000 6.000000
50% NaN 21.000000 8.00000 8.500000
75% NaN 25.000000 9.00000 10.250000
max NaN 29.000000 12.00000 12.000000

Пример 3: описание конкретных столбцов

В следующем коде показано, как рассчитать описательную статистику для одного конкретного столбца в кадре данных pandas:

#calculate descriptive statistics for 'points' column only
df['points']. describe ()

count 8.000000
mean 20.250000
std 6.158618
min 12.000000
25% 14.750000
50% 21.000000
75% 25.000000
max 29.000000
Name: points, dtype: float64

В следующем коде показано, как рассчитать описательную статистику для нескольких определенных столбцов:

#calculate descriptive statistics for 'points' and 'assists' columns only
df[['points', 'assists']]. describe ()

 points assists
count 8.000000 8.00000
mean 20.250000 7.75000
std 6.158618 2.54951
min 12.000000 4.00000
25% 14.750000 6.50000
50% 21.000000 8.00000
75% 25.000000 9.00000
max 29.000000 12.00000

Вы можете найти полную документацию для функции description() здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные функции в pandas:

Pandas: как найти уникальные значения в столбце
Pandas: как найти разницу между двумя строками
Pandas: как подсчитать пропущенные значения в DataFrame

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.