Что такое многомерные данные? (Определение и примеры)

Что такое многомерные данные? (Определение и примеры)

Высокоразмерные данные относятся к набору данных, в котором количество признаков p больше, чем количество наблюдений N , часто записывается как p >> N.

Например, набор данных, который имеет p = 6 объектов и только N = 3 наблюдения, будет считаться данными высокой размерности, поскольку количество признаков больше, чем количество наблюдений.

Высокоразмерные данные

Одна распространенная ошибка, которую допускают люди, заключается в том, что они предполагают, что «высокоразмерные данные» просто означают набор данных, который имеет множество функций. Однако это неправильно. Набор данных может иметь 10 000 признаков, но если он содержит 100 000 наблюдений, то он не является многомерным.

Примечание. Обратитесь к главе 18 книги «Элементы статистического обучения» , чтобы глубже погрузиться в математику, лежащую в основе многомерных данных.

Почему многомерные данные являются проблемой?

Когда количество признаков в наборе данных превышает количество наблюдений, у нас никогда не будет детерминированного ответа.

Другими словами, становится невозможным найти модель, которая может описать взаимосвязь между переменными-предикторами и переменной- ответом , потому что у нас недостаточно наблюдений для обучения модели.

Примеры многомерных данных

Следующие примеры иллюстрируют многомерные наборы данных в различных областях.

Пример 1. Медицинские данные

Высокоразмерные данные распространены в наборах данных здравоохранения, где количество характеристик для данного человека может быть огромным (например, артериальное давление, частота сердечных сокращений в покое, состояние иммунной системы, история операций, рост, вес, существующие состояния и т. д.).

В этих наборах данных обычно количество признаков превышает количество наблюдений.

Пример данных высокой размерности

Пример 2: Финансовые данные

Многомерные данные также распространены в наборах финансовых данных, где количество характеристик для данной акции может быть довольно большим (например, коэффициент PE, рыночная капитализация, объем торгов, ставка дивидендов и т. д.).

В этих типах наборов данных количество функций обычно намного больше, чем количество отдельных акций.

Пример 3: Геномика

Многомерные данные также часто встречаются в области геномики, где количество признаков генов для данного человека может быть огромным.

Как обрабатывать многомерные данные

Существует два распространенных способа работы с многомерными данными:

1. Выберите меньшее количество функций.

Самый очевидный способ избежать работы с многомерными данными — просто включить в набор данных меньше признаков.

Есть несколько способов решить, какие функции удалить из набора данных, в том числе:

  • Отбросьте объекты с большим количеством пропущенных значений: если в данном столбце в наборе данных много пропущенных значений, вы можете полностью отбросить его, не теряя много информации.
  • Отбросьте функции с низкой дисперсией: если в данном столбце в наборе данных есть значения, которые меняются очень мало, вы можете отбросить его, поскольку он вряд ли предложит столько полезной информации о переменной ответа, как другие функции.
  • Отбросьте функции с низкой корреляцией с переменной отклика: если определенная функция не сильно коррелирует с интересующей переменной отклика, вы, вероятно, можете удалить ее из набора данных, поскольку она вряд ли будет полезной функцией в модели.

2. Используйте метод регуляризации.

Еще один способ обработки многомерных данных без удаления признаков из набора данных — использовать такой метод регуляризации, как:

Каждый из этих методов может быть использован для эффективной работы с многомерными данными.


Полный список всех руководств по машинному обучению по Statology вы можете найти на этой странице .

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.