Нормальное распределение и t-распределение: в чем разница?


Нормальное распределение является наиболее часто используемым распределением во всей статистике и известно своей симметричностью и колоколообразной формой.

Тесно связанным распределением является t-распределение , которое также является симметричным и колоколообразным, но имеет более тяжелые «хвосты», чем нормальное распределение.

То есть больше значений в распределении находится в конце, чем в центре, по сравнению с нормальным распределением:

На статистическом жаргоне мы используем метрику, называемую эксцессом , чтобы измерить, насколько «тяжелым хвостом» является распределение. Таким образом, мы бы сказали, что эксцесс t-распределения больше, чем у нормального распределения.

На практике мы чаще всего используем t-распределение при проверке гипотез илипостроении доверительных интервалов .

Например, формула для расчета доверительного интервала для среднего значения генеральной совокупности выглядит следующим образом:

Доверительный интервал = x +/- t 1-α/2, n-1 * (s/√n)

куда:

  • x : выборочное среднее
  • t: критическое значение t, основанное на уровне значимости α и размере выборки n .
  • s: стандартное отклонение выборки
  • n: размер выборки

В этой формуле мы используем критическое значение изтаблицы t вместо критического значения из таблицы z, когда выполняется одно из следующих условий:

  • Мы не знаем стандартного отклонения населения.
  • Размер выборки меньше или равен 30.

Следующая блок-схема дает полезный способ узнать, следует ли использовать критическое значение из таблицы t или таблицы z:

Основное отличие использования t-распределения от нормального распределения при построении доверительных интервалов состоит в том, что критические значения из t-распределения будут больше, что приводит к более широким доверительным интервалам.

Например, предположим, что мы хотим построить 95-процентный доверительный интервал для среднего веса некоторой популяции черепах, поэтому мы собираем случайную выборку черепах со следующей информацией:

  • Размер выборки n = 25
  • Средний вес выборки x = 300
  • Стандартное отклонение выборки s = 18,5

Z-критическое значение для 95% доверительного интервала составляет 1,96 , а t-критическое значение для 95% доверительного интервала с df = 25-1 = 24 степени свободы составляет 2,0639 .

Таким образом, 95% доверительный интервал для среднего значения генеральной совокупности с использованием z-критического значения составляет:

95% ДИ = 300 +/- 1,96*(18,5/ √25 ) = [292,75, 307,25]

В то время как 95% доверительный интервал для популяции означает использование t-критического значения:

95% ДИ = 300 +/- 2,0639*(18,5/√25) = [292,36, 307,64]

Обратите внимание, что доверительный интервал с t-критическим значением шире.

Идея здесь заключается в том, что когда у нас небольшие размеры выборки, мы менее уверены в истинном среднем значении генеральной совокупности, поэтому с тех пор целесообразно использовать t-распределение для получения более широких доверительных интервалов, которые имеют более высокие шансы содержать истинное среднее значение генеральной совокупности.

Визуализация степеней свободы для t-распределения

Стоит отметить, что по мере увеличения степеней свободы t-распределение приближается к нормальному распределению.

Чтобы проиллюстрировать это, рассмотрим следующий график, который показывает форму t-распределения со следующими степенями свободы:

  • дф = 3
  • дф = 10
  • дф = 30

За пределами 30 степеней свободы t-распределение и нормальное распределение становятся настолько похожими, что различия между использованием t-критического значения и z-критического значения в формулах становятся незначительными.