Как получить доступ к примерам наборов данных в Pandas


Часто вам может понадобиться получить доступ к примерам наборов данных в pandas, чтобы поиграть и попрактиковаться в различных функциях.

К счастью, вы можете создавать образцы наборов данных pandas, используя встроенную функцию тестирования .

В следующих примерах показано, как использовать эту функцию.

Пример 1: создание набора данных Pandas со всеми числовыми столбцами

Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:

import pandas as pd

#create sample dataset
df1 = pd.util.testing.makeDataFrame()

#view dimensions of dataset
print(df1.shape)

# (30, 4)

#view first five rows of dataset
print(df1.head())

# A B C D
#s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
#CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
#KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
#IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
#gaR9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

По умолчанию функция makeDataFrame() создает кадр данных pandas с 30 строками и 4 столбцами, в котором все столбцы являются числовыми.

Пример 2: создание набора данных Pandas со смешанными столбцами

Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:

import pandas as pd

#create sample dataset
df2 = pd.util.testing.makeMixedDataFrame()

#view dimensions of dataset
print(df2. shape )

#(5, 4)

#view first five rows of dataset
print(df2.head())

# A B C D
#0 0.0 0.0 foo1 2009-01-01
#1 1.0 1.0 foo2 2009-01-02
#2 2.0 0.0 foo3 2009-01-05
#3 3.0 1.0 foo4 2009-01-06
#4 4.0 0.0 foo5 2009-01-07**

По умолчанию функция makeMixedDataFrame() создает кадр данных pandas с 5 строками и 4 столбцами, в которых столбцы представляют собой различные типы данных.

Мы можем использовать следующий код для отображения типа данных каждого столбца :

#display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype: object

Из вывода мы видим:

  • Столбец A является числовым
  • Столбец B является числовым
  • Столбец C представляет собой строку
  • Столбец D - это дата

Пример 3: создание набора данных Pandas с отсутствующими значениями

В следующем коде показано, как создать набор данных pandas с некоторыми отсутствующими значениями в разных столбцах:

import pandas as pd

#create sample dataset
df3 = pd.util.testing.makeMissingDataFrame()

#view dimensions of dataset
print(df3. shape )

(30, 4)

#view first five rows of dataset
print(df3.head())

 A B C D
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

По умолчанию функция makeMissingDataFrame() создает кадр данных pandas с 30 строками и 4 столбцами, в которых есть некоторые пропущенные значения (NaN) в разных столбцах.

Эта функция особенно полезна, поскольку позволяет работать с набором данных, в котором есть некоторые отсутствующие значения, что часто встречается в реальных наборах данных.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:

Как создать Pandas DataFrame со случайными данными
Как случайным образом сэмплировать строки в Pandas
Как перетасовать строки в Pandas DataFrame