Длинные и широкие данные: в чем разница?

Длинные и широкие данные: в чем разница?

Набор данных может быть записан в двух разных форматах: широком и длинном .

Широкий формат содержит значения, которые не повторяются в первом столбце.

Длинный формат содержит значения , которые повторяются в первом столбце.

Например, рассмотрим следующие два набора данных, которые содержат одни и те же данные экзамена, выраженные в разных форматах:

Широкий и длинный формат данных

Обратите внимание, что в широком наборе данных каждое значение в первом столбце уникально.

Напротив, в длинном наборе данных значения в первом столбце повторяются.

Оба набора данных содержат одинаковую информацию о командах, но они просто представлены в разных форматах.

Когда использовать широкие или длинные данные

В зависимости от того, что вы хотите делать со своими данными, может иметь смысл иметь их в широком или длинном формате.

Когда использовать широкий формат

Как правило, если вы анализируете данные, вы обычно будете использовать широкий формат данных.

Например, если вы хотите найти среднее количество очков, передач и подборов, набранных каждой командой, часто проще иметь данные в широком формате:

Большинство наборов данных, с которыми вы сталкиваетесь в реальном мире, также будут записаны в широком формате, потому что нашему мозгу легче их интерпретировать.

Например, в приведенном выше формате легко прочитать значения очков, передач и подборов для каждой команды в одной строке.

Когда использовать длинный формат

Как правило, если вы визуализируете несколько переменных на графике с помощью статистического программного обеспечения, такого как R , вы обычно должны преобразовать свои данные в длинный формат, чтобы программное обеспечение могло создать график.

Для реальных примеров этого ознакомьтесь с этими руководствами по R, в которых данные должны быть в длинном формате для создания определенных типов графиков:

Иногда вам может понадобиться преобразовать данные в другой формат, если вы также используете Python .

В следующих руководствах объясняется, как изменить форму фреймов данных в Python:

Дополнительные ресурсы

В следующих руководствах представлена информация о других часто используемых статистических терминах:

Что такое наблюдение в статистике?
Что такое ковариата в статистике?
Что такое остатки в статистике?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.