Кластерный анализ — это метод, используемый в машинном обучении , который пытается найти кластеры наблюдений в наборе данных.
Цель кластерного анализа состоит в том, чтобы найти кластеры, в которых наблюдения внутри каждого кластера очень похожи друг на друга, а наблюдения в разных кластерах сильно отличаются друг от друга.
Следующие примеры показывают, как кластерный анализ используется в различных реальных ситуациях.
Пример 1: Розничный маркетинг
Розничные компании часто используют кластеризацию для выявления групп домохозяйств, которые похожи друг на друга.
Например, розничная компания может собирать следующую информацию о домохозяйствах:
- Семейный доход
- Размер семьи
- Глава семьи Род занятий
- Удаленность от ближайшего населенного пункта
Затем они могут передать эти переменные в алгоритм кластеризации, чтобы, возможно, идентифицировать следующие кластеры:
- Кластер 1: маленькая семья, большие траты
- Кластер 2: Большая семья, большие траты
- Кластер 3: Маленькая семья, низкие траты
- Кластер 4: Большая семья, низкие траты
Затем компания может рассылать персонализированные рекламные объявления или рекламные письма каждому домохозяйству в зависимости от того, насколько вероятно, что они отреагируют на определенные типы рекламы.
Пример 2: потоковые сервисы
Стриминговые сервисы часто используют кластерный анализ для выявления зрителей со схожим поведением.
Например, служба потоковой передачи может собирать следующие данные о лицах:
- Минуты просмотра в день
- Всего сеансов просмотра в неделю
- Количество уникальных шоу, просмотренных в месяц
Используя эти метрики, служба потоковой передачи может выполнять кластерный анализ, чтобы определить пользователей с высоким и низким уровнем использования, чтобы они могли знать, на кого они должны тратить большую часть своих рекламных долларов.
Пример 3: спортивная наука
Исследователи данных для спортивных команд часто используют кластеризацию для выявления игроков, похожих друг на друга.
Например, профессиональные баскетбольные команды могут собирать следующую информацию об игроках:
- Очки за игру
- Подборов за игру
- Ассистов за игру
- Кражи за игру
Затем они могут передать эти переменные в алгоритм кластеризации, чтобы идентифицировать игроков, похожих друг на друга, чтобы они могли тренировать этих игроков друг с другом и выполнять определенные упражнения, основанные на их сильных и слабых сторонах.
Пример 4: электронный маркетинг
Многие компании используют кластерный анализ для выявления потребителей, похожих друг на друга, чтобы они могли адаптировать свои электронные письма, отправляемые потребителям, таким образом, чтобы максимизировать свой доход.
Например, компания может собирать следующую информацию о потребителях:
- Процент открытых писем
- Количество кликов по электронной почте
- Время, потраченное на просмотр электронной почты
Используя эти показатели, компания может выполнять кластерный анализ, чтобы определить потребителей, использующих электронную почту схожим образом, и адаптировать типы электронных писем и частоту их отправки различным группам клиентов.
Пример 5: Медицинское страхование
Актуарии в компаниях медицинского страхования часто использовали кластерный анализ для выявления «кластеров» потребителей, которые используют свою медицинскую страховку определенным образом.
Например, актуарий может собирать следующую информацию о домохозяйствах:
- Общее количество посещений врача в год
- Общий размер домохозяйства
- Общее количество хронических заболеваний на домохозяйство
- Средний возраст членов домохозяйства
Затем актуарий может ввести эти переменные в алгоритм кластеризации для выявления похожих домохозяйств. Затем медицинская страховая компания может установить ежемесячные взносы в зависимости от того, как часто они ожидают, что домохозяйства в определенных кластерах будут использовать их страховку.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять различные типы кластерного анализа с помощью языка программирования R:
Как выполнить кластеризацию K-средних в R
Как выполнить кластеризацию K-Medoids в R
Как выполнить иерархическую кластеризацию в R