Введение в линейный дискриминантный анализ

Когда у нас есть набор переменных-предикторов и мы хотим классифицировать переменную ответа в один из двух классов, мы обычно используем логистическую регрессию .

Например, мы можем использовать логистическую регрессию в следующем сценарии:

Мы хотим использовать кредитный рейтинг и банковский баланс , чтобы предсказать, не выполнит ли данный клиент дефолт по кредиту. (Переменная ответа = «По умолчанию» или «Нет по умолчанию»)

Однако, когда переменная отклика имеет более двух возможных классов, мы обычно предпочитаем использовать метод, известный как линейный дискриминантный анализ , часто называемый LDA.

Например, мы можем использовать LDA в следующем сценарии:

Мы хотим использовать очки за игру и подборы за игру , чтобы предсказать, будет ли данный баскетболист средней школы принят в одну из трех школ: Дивизион 1, Дивизион 2 или Дивизион 3.

Хотя для классификации используются модели LDA и логистической регрессии, оказывается, что LDA гораздо более устойчив, чем логистическая регрессия, когда дело доходит до предсказаний для нескольких классов, и поэтому является предпочтительным алгоритмом для использования, когда переменная отклика может принимать более два класса.

LDA также работает лучше, когда размеры выборки малы по сравнению с логистической регрессией, что делает его предпочтительным методом, когда вы не можете собрать большие выборки.

Как построить модели LDA

LDA делает следующие предположения о данном наборе данных:

(1) Значения каждой переменной-предиктора нормально распределены.То есть, если бы мы построили гистограмму для визуализации распределения значений для данного предиктора, она примерно имела бы форму «колокола».

(2) Каждая предикторная переменная имеет одинаковую дисперсию.Это почти никогда не происходит в реальных данных, поэтому мы обычно масштабируем каждую переменную, чтобы иметь одинаковое среднее значение и дисперсию, прежде чем фактически подгонять модель LDA.

Как только эти предположения выполняются, LDA затем оценивает следующие значения:

μ k : Среднее значение всех обучающих наблюдений из k -го класса.
σ 2 : средневзвешенное значение выборочных дисперсий для каждого из k классов.
π k : Доля обучающих наблюдений, принадлежащих k -му классу.

Затем LDA подставляет эти числа в следующую формулу и присваивает каждому наблюдению X = x класс, для которого формула дает наибольшее значение:

D k (x) = x * (µ k /σ 2 ) – (µ k 2 /2σ 2 ) + log(π k )

Обратите внимание, что в названии LDA есть слово linear , потому что значение, полученное вышеприведенной функцией, является результатом линейной функции x.

Как подготовить данные для LDA

Прежде чем применять к ним модель LDA, убедитесь, что ваши данные соответствуют следующим требованиям:

1. Переменная ответа является категориальной.Модели LDA предназначены для решения задач классификации, т. е. когда переменная отклика может быть помещена в классы или категории.

2. Переменные-предикторы подчиняются нормальному распределению.Во-первых, проверьте, что каждая предикторная переменная примерно нормально распределена. Если это не так, вы можете сначала преобразовать данные , чтобы сделать распределение более нормальным.

3. Каждая предикторная переменная имеет одинаковую дисперсию.Как упоминалось ранее, LDA предполагает, что каждая предикторная переменная имеет одинаковую дисперсию. Поскольку на практике это случается редко, рекомендуется масштабировать каждую переменную в наборе данных так, чтобы ее среднее значение равнялось 0, а стандартное отклонение — 1.

4. Учитывайте крайние выбросы. Перед применением LDA обязательно проверьте наличие экстремальных выбросов в наборе данных. Как правило, вы можете визуально проверить выбросы, просто используя диаграммы рассеяния или диаграммы рассеяния .

Примеры использования линейного дискриминантного анализа

Модели LDA применяются в самых разных областях реальной жизни. Вот некоторые примеры:

1. Маркетинг.Розничные компании часто используют LDA для классификации покупателей по одной из нескольких категорий. Например, они могут построить модель LDA, чтобы предсказать, будет ли данный покупатель мало тратить, средне или много тратит, используя предикторные переменные, такие как доход , общие годовые расходы и размер домохозяйства .

2. Медицинский.Больницы и медицинские исследовательские группы часто используют LDA, чтобы предсказать, может ли данная группа аномальных клеток привести к легкой, средней или тяжелой болезни.

3. Разработка продукта.Компании могут создавать модели LDA, чтобы прогнозировать, будет ли конкретный потребитель использовать их продукт ежедневно, еженедельно, ежемесячно или ежегодно, на основе множества переменных-предикторов, таких как пол , годовой доход и частота использования аналогичного продукта .

4. Экология. Исследователи могут создавать модели LDA, чтобы предсказать, будет ли состояние здоровья данного кораллового рифа хорошим, умеренным, плохим или находящимся под угрозой исчезновения, на основе множества переменных-предикторов, таких как размер , ежегодное загрязнение и возраст .

LDA в R и Python

В следующих руководствах представлены пошаговые примеры выполнения линейного дискриминантного анализа в R и Python:

Линейный дискриминантный анализ в R (шаг за шагом)
Линейный дискриминантный анализ в Python (шаг за шагом)

Введение в линейный дискриминантный анализ

Как построить модели LDA

Как подготовить данные для LDA

Примеры использования линейного дискриминантного анализа

LDA в R и Python

Редакция Кодкампа