Pandas

Как получить доступ к примерам наборов данных в Pandas

В: Pandas

Часто вам может понадобиться получить доступ к примерам наборов данных в pandas, чтобы поиграть и попрактиковаться в различных функциях.

К счастью, вы можете создавать образцы наборов данных pandas, используя встроенную функцию тестирования .

В следующих примерах показано, как использовать эту функцию.

Пример 1: создание набора данных Pandas со всеми числовыми столбцами

Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:

import pandas as pd

#create sample dataset
df1 = pd.util.testing.makeDataFrame()

#view dimensions of dataset
print(df1.shape)

# (30, 4)

#view first five rows of dataset
print(df1.head())

# A B C D
#s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
#CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
#KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
#IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
#gaR9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

По умолчанию функция makeDataFrame() создает кадр данных pandas с 30 строками и 4 столбцами, в котором все столбцы являются числовыми.

Пример 2: создание набора данных Pandas со смешанными столбцами

Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:

import pandas as pd

#create sample dataset
df2 = pd.util.testing.makeMixedDataFrame()

#view dimensions of dataset
print(df2. shape )

#(5, 4)

#view first five rows of dataset
print(df2.head())

# A B C D
#0 0.0 0.0 foo1 2009-01-01
#1 1.0 1.0 foo2 2009-01-02
#2 2.0 0.0 foo3 2009-01-05
#3 3.0 1.0 foo4 2009-01-06
#4 4.0 0.0 foo5 2009-01-07**

По умолчанию функция makeMixedDataFrame() создает кадр данных pandas с 5 строками и 4 столбцами, в которых столбцы представляют собой различные типы данных.

Мы можем использовать следующий код для отображения типа данных каждого столбца :

#display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype: object

Из вывода мы видим:

  • Столбец A является числовым
  • Столбец B является числовым
  • Столбец C представляет собой строку
  • Столбец D - это дата

Пример 3: создание набора данных Pandas с отсутствующими значениями

В следующем коде показано, как создать набор данных pandas с некоторыми отсутствующими значениями в разных столбцах:

import pandas as pd

#create sample dataset
df3 = pd.util.testing.makeMissingDataFrame()

#view dimensions of dataset
print(df3. shape )

(30, 4)

#view first five rows of dataset
print(df3.head())

 A B C D
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

По умолчанию функция makeMissingDataFrame() создает кадр данных pandas с 30 строками и 4 столбцами, в которых есть некоторые пропущенные значения (NaN) в разных столбцах.

Эта функция особенно полезна, поскольку позволяет работать с набором данных, в котором есть некоторые отсутствующие значения, что часто встречается в реальных наборах данных.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:

Как создать Pandas DataFrame со случайными данными
Как случайным образом сэмплировать строки в Pandas
Как перетасовать строки в Pandas DataFrame

Еще от кодкамп
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.