Что такое открытый дистрибутив?

В статистике открытое распределение — это частотное распределение, в котором один или несколько классов (или «бинов») являются открытыми.

Например, следующее частотное распределение представляет собой открытое распределение, в котором наименьший класс является открытым:

И следующее частотное распределение показывает открытое распределение, в котором самый большой класс является открытым:

И наоборот, распределение с закрытым концом — это распределение, в котором каждый класс в частотном распределении имеет верхнюю и нижнюю границы, например следующие:

Что вызывает открытые дистрибутивы?

Открытые распределения часто являются результатом того, что исследователи собирают данные таким образом, что один из классов оказывается открытым.

Например, предположим, что исследователь опрашивает жителей определенного города и спрашивает их об их годовом доходе домохозяйства.

Исследователь может решить дать максимально возможный ответ «> 100 000 долларов», поскольку он знает, что жителям с высоким доходом может быть неудобно делиться своим доходом, если он значительно превышает 100 000 долларов.

И наоборот, исследователь может сделать наименьший возможный ответ открытым, потому что он знает, что жителям, которые зарабатывают очень мало, также будет неудобно делиться тем, как мало они зарабатывают.

Короче говоря, исследователи часто включают открытые классы в свои опросы, потому что они хотят максимально увеличить количество людей, которые чувствуют себя комфортно, отвечая на вопросы опроса.

Проблема с открытыми дистрибутивами

Проблема открытых дистрибутивов заключается в том, что истинные данные подвергаются цензуре.Другими словами, мы можем знать количество людей, которые зарабатывают более 100 тысяч долларов в определенном городе, но на самом деле мы не знаем их точный годовой доход.

Возможно, некоторые люди могут зарабатывать 150 000 долларов, 250 000 долларов, 500 000 долларов или даже больше, но мы понятия не имеем, поскольку каждый из этих людей может указать в опросе только то, что он зарабатывает «> 100 000 долларов».

Поскольку данные подвергаются цензуре в открытых распределениях, мы также не можем рассчитать точное среднее значение и стандартное отклонение значений в наборе данных, поскольку у нас нет доступа ко всем необработанным значениям данных.

Как анализировать открытый дистрибутив

Поскольку мы не можем рассчитать точное среднее значение открытого распределения, мы часто используем медиану как меру «центра» набора данных.

Напомним, что медиана представляет среднее значение набора данных.

При работе с открытыми распределениями мы можем использовать следующую формулу, чтобы найти наилучшую оценку медианы:

Наилучшая оценка медианы: L + ((n/2 – F)/f) * w

куда:

L: Нижний предел средней группы
n: общее количество наблюдений
F: кумулятивная частота до средней группы
f: частота срединной группы
w: ширина срединной группы

Например, предположим, что у нас есть следующий открытый дистрибутив из предыдущего:

Всего в наборе данных 72 значения. Таким образом, мы знаем, что медианное значение будет расположено между значением 36-го и 37-го по величине значения в наборе данных. Каждое из этих значений находится в классе «60 000–79 999 долларов США», поэтому мы знаем, что средний доход находится в этом диапазоне.

Наилучшей оценкой медианы будет:

Медиана: 60 000 + ((72/2 – 25) / 19) * 19 999 = 71 578 долларов.

Это значение представляет собой нашу наилучшую оценку среднего годового дохода для отдельных лиц в этом наборе данных.

Что такое открытый дистрибутив?

Что вызывает открытые дистрибутивы?

Проблема с открытыми дистрибутивами

Как анализировать открытый дистрибутив

Редакция Кодкампа