Простое объяснение индекса подобия Жаккара


Индекс подобия Жаккара — это показатель сходства между двумя наборами данных.

Разработанный Полом Жаккаром индекс варьируется от 0 до 1. Чем ближе к 1, тем более похожи два набора данных.

Индекс сходства Жаккара рассчитывается как:

Сходство Жаккара = (количество наблюдений в обоих наборах) / (число в любом наборе)

Или, записанный в форме записи:

J(A, B) = |A∩B| / |А∪В|

Если два набора данных имеют одни и те же элементы, их индекс сходства Жаккара будет равен 1. И наоборот, если у них нет общих элементов, их сходство будет равно 0.

В следующих примерах показано, как рассчитать индекс подобия Жаккара для нескольких разных наборов данных.

Пример 1: Сходство Жаккара

Предположим, у нас есть следующие два набора данных:

A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих: {0, 2, 5, 9} = 4
  • Количество наблюдений в любом: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Сходство Жаккара: 4/10 = 0,4

Индекс подобия Жаккара оказывается равным 0,4 .

Пример 2. Сходство Жаккара (продолжение)

Предположим, у нас есть следующие два набора данных:

C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих: {} = 0
  • Количество наблюдений в любом: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Сходство Жаккара: 0 / 11 = 0

Индекс подобия Жаккара оказывается равным 0.Это указывает на то, что два набора данных не имеют общих членов.

Пример 3: Сходство Жаккара для персонажей

Обратите внимание, что мы также можем использовать индекс сходства Жаккара для наборов данных, содержащих символы, а не числа.

Например, предположим, что у нас есть следующие два набора данных:

E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих: {'обезьяна'} = 1
  • Количество наблюдений в любом: {'кошка', 'собака', бегемот, 'обезьяна', 'носорог', 'страус', 'лосось'} = 7
  • Сходство Жаккара: 1 / 7 = 0,142857

Индекс подобия Жаккара оказывается равным 0,142857.Поскольку это число довольно низкое, это указывает на то, что эти два набора совершенно не похожи.

Расстояние Жаккара

Расстояние Жаккара измеряет несходство между двумя наборами данных и рассчитывается как:

Расстояние Жаккара = 1 – Сходство Жаккара

Эта мера дает нам представление о разнице между двумя наборами данных или о разнице между ними.

Например, если два набора данных имеют сходство Жаккара 80%, то расстояние Жаккара у них будет 1 – 0,8 = 0,2 или 20%.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать сходство Жаккара с помощью различных статистических программ:

Как рассчитать сходство Жаккара в R
Как рассчитать сходство Жаккара в Python

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.