В статистике модели ANOVA («дисперсионный анализ») используются для определения того, равны ли средние значения различных уровней лечения.
ANOVA имеет сбалансированный дизайн , если размеры выборки одинаковы для всех комбинаций лечения.
И наоборот, ANOVA имеет несбалансированный дизайн , если размеры выборки не одинаковы для всех комбинаций лечения.
Например, предположим, что мы хотим выполнить односторонний дисперсионный анализ , чтобы определить, вызывают ли три разных удобрения один и тот же средний рост растений.
На следующем рисунке показан пример сбалансированного и несбалансированного плана для этого однофакторного дисперсионного анализа:
В сбалансированной схеме в каждой обработке используется равное количество растений. В несбалансированном плане имеются неравные размеры выборки.
Или предположим, что мы хотим выполнить двусторонний дисперсионный анализ , чтобы определить, вызывают ли различные комбинации удобрений и солнечного света один и тот же средний рост растений.
На следующем графике показан и пример сбалансированного и несбалансированного плана для этого двухфакторного дисперсионного анализа:
Связанный: Однофакторный и двухфакторный дисперсионный анализ: когда использовать каждый
Почему сбалансированный дизайн предпочтительнее?
Сбалансированные конструкции обладают следующими преимуществами по сравнению с несбалансированными:
1. Мощность дисперсионного анализа максимальна, когда размеры выборки одинаковы для всех комбинаций лечения. Когда мощность самая высокая, у нас есть наилучшие шансы обнаружить различия между средствами в разных комбинациях лечения, когда средства действительно различаются.
2. Общая F-статистика ANOVA менее чувствительна к нарушениям предположения о равной дисперсии .
Как возникают несбалансированные конструкции?
Даже если исследователи попытаются разработать сбалансированный план для дисперсионного анализа, существует несколько причин, по которым может возникнуть несбалансированный план, в том числе:
- Люди могут решить отказаться от участия в исследовании на полпути
- Растения могут просто погибнуть в ходе исследования
- Завод-изготовитель может закрыться и не сможет поставлять определенные компоненты, необходимые для исследования.
Есть множество причин, по которым эксперимент может внезапно стать несбалансированным.
Как справиться с несбалансированным дизайном
Как упоминалось ранее, предпочтение отдается сбалансированным планам, поскольку они обеспечивают более высокую статистическую мощность и более надежную статистику испытаний.
Однако, если вам нужно провести эксперимент с несбалансированной схемой, у вас есть три варианта:
1. В любом случае выполните дисперсионный анализ.
Если размеры выборки для комбинаций лечения не равны, но выполняется предположение о равной дисперсии, вы все равно можете приступить к выполнению ANOVA.
Хорошо известно, что дисперсионный анализ довольно устойчив к неравным размерам выборки, если дисперсии для каждой комбинации обработок по-прежнему равны.
2. Вставьте пропущенные значения.
Если имеются лишь незначительные различия между размерами выборки между комбинациями методов лечения, вы можете заполнить пропущенные значения, используя среднее значение или медиану уровней лечения.
Однако этот подход следует использовать с осторожностью, и его следует использовать только в том случае, если размеры выборки с самого начала почти равны.
3. Выполните непараметрический тест.
Если размеры выборки не равны и предположение о равных дисперсиях нарушается, вы можете вместо этого выполнить непараметрический эквивалент ANOVA, такой как критерий Крускала-Уоллиса .
Этот тип теста гораздо более устойчив к неравным размерам выборки и неодинаковой дисперсии комбинаций лечения.