Длинные и широкие данные: в чем разница?


Набор данных может быть записан в двух разных форматах: широком и длинном .

Широкий формат содержит значения, которые не повторяются в первом столбце.

Длинный формат содержит значения , которые повторяются в первом столбце.

Например, рассмотрим следующие два набора данных, которые содержат одни и те же данные экзамена, выраженные в разных форматах:

Обратите внимание, что в широком наборе данных каждое значение в первом столбце уникально.

Напротив, в длинном наборе данных значения в первом столбце повторяются.

Оба набора данных содержат одинаковую информацию о командах, но они просто представлены в разных форматах.

Когда использовать широкие или длинные данные

В зависимости от того, что вы хотите делать со своими данными, может иметь смысл иметь их в широком или длинном формате.

Когда использовать широкий формат

Как правило, если вы анализируете данные, вы обычно будете использовать широкий формат данных.

Например, если вы хотите найти среднее количество очков, передач и подборов, набранных каждой командой, часто проще иметь данные в широком формате:

Большинство наборов данных, с которыми вы сталкиваетесь в реальном мире, также будут записаны в широком формате, потому что нашему мозгу легче их интерпретировать.

Например, в приведенном выше формате легко прочитать значения очков, передач и подборов для каждой команды в одной строке.

Когда использовать длинный формат

Как правило, если вы визуализируете несколько переменных на графике с помощью статистического программного обеспечения, такого как R , вы обычно должны преобразовать свои данные в длинный формат, чтобы программное обеспечение могло создать график.

Для реальных примеров этого ознакомьтесь с этими руководствами по R, в которых данные должны быть в длинном формате для создания определенных типов графиков:

Иногда вам может понадобиться преобразовать данные в другой формат, если вы также используете Python .

В следующих руководствах объясняется, как изменить форму фреймов данных в Python:

Дополнительные ресурсы

В следующих руководствах представлена информация о других часто используемых статистических терминах:

Что такое наблюдение в статистике?
Что такое ковариата в статистике?
Что такое остатки в статистике?