CDF и PDF: в чем разница?


В этом руководстве дается простое объяснение разницы между PDF (функцией плотности вероятности) и CDF (кумулятивной функцией распределения) в статистике.

Случайные переменные

Прежде чем мы сможем определить PDF или CDF, нам сначала нужно понять случайные величины.

Случайная величина , обычно обозначаемая как X, представляет собой переменную, значения которой являются числовыми результатами некоторого случайного процесса. Случайные величины бывают двух типов: дискретные и непрерывные.

Дискретные случайные величины

Дискретная случайная величина — это та, которая может принимать только счетное число различных значений, таких как 0, 1, 2, 3, 4, 5…100, 1 миллион и т. д. Вот некоторые примеры дискретных случайных величин:

  • Количество раз, когда монета падает решкой после 20 подбрасываний.
  • Сколько раз игральная кость выпадает на число 4 после 100 бросков.

Непрерывные случайные величины

Непрерывная случайная величина — это такая, которая может принимать бесконечное число возможных значений. Некоторые примеры непрерывных случайных величин включают:

  • Рост человека
  • Вес животного
  • Время, необходимое, чтобы пробежать милю

Например, рост человека может быть 60,2 дюйма, 65,2344 дюйма, 70,431222 дюйма и т. д. Существует бесконечное количество возможных значений роста.

Полезное правило: если вы можете подсчитать количество результатов, то вы работаете с дискретной случайной величиной (например, подсчитывая, сколько раз монета падает орлом). Но если вы можете измерить результат, вы работаете с непрерывной случайной величиной (например, измерения, рост, вес, время и т. д.).

Функции плотности вероятности

Функция плотности вероятности (PDF) сообщает нам вероятность того, что случайная величина примет определенное значение.

Например, предположим, что мы бросаем кости один раз. Если мы обозначим через x число, на которое выпадет игральная кость, то функция плотности вероятности исхода может быть описана следующим образом:

Р (х < 1) : 0

Р(х = 1) : 1/6

Р(х = 2) : 1/6

Р(х = 3) : 1/6

Р(х = 4) : 1/6

Р(х = 5) : 1/6

Р(х = 6) : 1/6

Р(х > 6) : 0

Обратите внимание, что это пример дискретной случайной величины, поскольку x может принимать только целые значения.

Для непрерывной случайной величины мы не можем напрямую использовать PDF, поскольку вероятность того, что x примет любое точное значение, равна нулю.

Например, предположим, что мы хотим узнать вероятность того, что бургер из определенного ресторана весит четверть фунта (0,25 фунта). Поскольку вес — непрерывная переменная, он может принимать бесконечное число значений.

Например, данный бургер может на самом деле весить 0,250001 фунта, или 0,24 фунта, или 0,2488 фунта. Вероятность того, что данный бургер весит ровно 0,25 фунта, практически равна нулю.

Совокупные функции распределения

Кумулятивная функция распределения (cdf) говорит нам о вероятности того, что случайная величина примет значение, меньшее или равное x .

Например, предположим, что мы бросаем кости один раз. Если мы обозначим через x число, на которое выпадет игральная кость, то кумулятивную функцию распределения результата можно описать следующим образом:

Р (х ≤ 0) : 0

Р(х ≤ 1) : 1/6

Р(х ≤ 2) : 2/6

Р(х ≤ 3) : 3/6

Р(х ≤ 4) : 4/6

Р(х ≤ 5) : 5/6

Р(х ≤ 6) : 6/6

Р(х > 6) : 0

Обратите внимание, что вероятность того, что x меньше или равна 6 , равна 6/6, что равно 1. Это связано с тем, что кости выпадут на 1, 2, 3, 4, 5 или 6 с вероятностью 100%.

В этом примере используется дискретная случайная величина, но для непрерывной случайной величины можно также использовать непрерывную функцию плотности.

Кумулятивные функции распределения обладают следующими свойствами:

  • Вероятность того, что случайная величина примет значение меньше минимально возможного, равна нулю. Например, вероятность того, что на игральной кости выпадет значение меньше 1, равна нулю.
  • Вероятность того, что случайная величина примет значение, меньшее или равное максимально возможному значению, равна единице. Например, вероятность того, что на кубике выпадет значение 1, 2, 3, 4, 5 или 6, равна единице. Он должен приземлиться на одно из этих чисел.
  • cdf всегда не убывает. То есть вероятность того, что кубик выпадет на число, меньшее или равное 1, составляет 1/6, вероятность того, что он выпадет на число, меньшее или равное 2, составляет 2/6, вероятность того, что на нем выпадет число меньше или равно 3 — это 3/6 и т. д. Совокупные вероятности всегда не уменьшаются.

Связанный: вы можете использовать оживальный график для визуализации кумулятивной функции распределения.

Связь между CDF и PDF

С технической точки зрения, функция плотности вероятности (PDF) является производной от кумулятивной функции распределения (cdf).

Кроме того, площадь под кривой PDF между отрицательной бесконечностью и x равна значению x на cdf.

Подробное объяснение взаимосвязи между PDF и cdf, а также доказательство того, почему PDF является производной от cdf, см. в учебнике по статистике.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.