Многие статистические тесты предполагают, что наборы данных обычно распределяются .
Однако на практике это предположение часто нарушается. Одним из способов решения этой проблемы является преобразование значений набора данных с помощью одного из следующих трех преобразований:
1. Преобразование журнала: преобразование значений y в log(y) .
2. Преобразование квадратного корня: преобразование значений y в √ y .
3. Преобразование кубического корня: Преобразуйте значения от y до y 1/3 .
Выполняя эти преобразования, данные обычно становятся ближе к нормально распределенным. В следующих примерах показано, как выполнять эти преобразования в Excel.
Преобразование журнала в Excel
Чтобы применить преобразование журнала к набору данных в Excel, мы можем использовать функцию =LOG10() .
На следующем снимке экрана показано, как применить преобразование журнала к набору данных в Excel:
Чтобы определить, сделало ли это преобразование набор данных более нормально распределенным, мы можем выполнить тест нормальности Харке-Бера в Excel .
Статистика теста для этого теста определяется как:
JB = (n/6) * (S 2 + (C 2 /4))
куда:
- n: количество наблюдений в выборке
- S: асимметрия выборки
- C: образец эксцесса
При нулевой гипотезе нормальности JB ~ X 2 (2).
Если значение p , соответствующее тестовой статистике, меньше некоторого уровня значимости (например, α = 0,05), то мы можем отклонить нулевую гипотезу и сделать вывод, что данные не распределены нормально.
На следующем снимке экрана показано, как выполнить тест Харке-Бера для необработанных данных и преобразованных данных:
Обратите внимание, что p-значение для необработанных данных меньше 0,05, что указывает на то, что они не имеют нормального распределения.
Однако значение p для преобразованных данных не меньше 0,05, поэтому можно предположить, что оно нормально распределено. Это говорит нам о том, что преобразование журнала сработало.
Преобразование квадратного корня в Excel
Чтобы применить преобразование квадратного корня к набору данных в Excel, мы можем использовать функцию =SQRT() .
На следующем снимке экрана показано, как применить преобразование квадратного корня к набору данных в Excel:
Обратите внимание, что p-значение критерия нормальности Харке-Бера для преобразованных данных не меньше 0,05, что указывает на то, что преобразование квадратного корня было эффективным.
Преобразование кубического корня в Excel
Чтобы применить преобразование кубического корня к набору данных в Excel, мы можем использовать функцию =ДАННЫЕ^(1/3) .
На следующем снимке экрана показано, как применить преобразование кубического корня к набору данных в Excel:
Значение p критерия нормальности Жака-Бера для преобразованных данных не менее 0,05, что указывает на эффективность преобразования кубического корня.
Все три преобразования данных эффективно сделали необработанные данные более нормально распределенными.
Из трех преобразований логарифмическое преобразование привело к наибольшему значению p в тесте нормальности Жака-Бера, что говорит нам о том, что оно, вероятно, сделало данные «наиболее» нормально распределенными из трех методов преобразования.
Дополнительные ресурсы
Как выполнить преобразование Бокса-Кокса в Excel
Что такое предположение о нормальности в статистике?