Что такое сэмплирование латинского гиперкуба?

Выборка латинского гиперкуба - это метод, который можно использовать для выборки случайных чисел, в котором выборки равномерно распределены по пространству выборки.

Он широко используется для создания выборок, известных как контролируемые случайные выборки, и часто применяется в анализе методом Монте-Карло, поскольку позволяет значительно сократить количество симуляций, необходимых для получения точных результатов.

Вводный пример

Чтобы понять идею сэмплирования латинского гиперкуба, рассмотрим следующий простой пример:

Предположим, мы хотим получить выборку из 2 значений из набора данных, который нормально распределен со средним значением 0 и стандартным отклонением 1.

Если бы мы использовали настоящий генератор случайных чисел для получения этой выборки, возможно, что оба значения могли бы быть больше 0 или оба значения могли бы быть меньше 0.

Однако, если бы мы использовали выборку латинского гиперкуба для получения этой выборки, тогда было бы гарантировано, что одно значение будет больше 0, а другое меньше 0, потому что мы могли бы специально разделить пространство выборки на одну область со значениями выше 0 и одну область со значениями ниже 0, затем выберите случайную выборку из каждого региона.

Одномерная выборка латинского гиперкуба

Идея одномерной выборки латинского гиперкуба проста: разделить данный CDF на n различных областей и случайным образом выбрать одно значение из каждой области, чтобы получить выборку размера n .

Преимущество этого подхода заключается в том, что он гарантирует включение в выборку хотя бы одного значения из каждого региона.

Двумерная выборка латинского гиперкуба

Мы можем легко распространить идею одномерной выборки латинского гиперкуба на два измерения.

Для двух переменных, x и y, мы можем разделить выборочное пространство каждой переменной на n равномерно расположенных областей и выбрать случайную выборку из каждого выборочного пространства, чтобы получить случайные значения в двух измерениях.

Выборка латинского гиперкуба в двух измерениях

Важно отметить, что две переменные должны быть независимыми, чтобы этот метод выборки достиг желаемых результатов.

Выборка N-мерного латинского гиперкуба

Чтобы выполнить выборку латинского гиперкуба в больших измерениях, мы можем просто расширить идею двумерной выборки латинского гиперкуба на еще большее количество измерений.

Каждая переменная просто разбивается на равномерно расположенные области, а затем из каждой области выбираются случайные выборки для получения контролируемой случайной выборки.

Связанный: что такое многомерные данные?

Зачем использовать сэмплирование латинского гиперкуба?

Основное преимущество выборки латинского гиперкуба состоит в том, что она создает выборки, отражающие истинное лежащее в основе распределение, и обычно требует гораздо меньших размеров выборки, чем простая случайная выборка .

Этот метод выборки может быть особенно полезен, если вы работаете с данными, имеющими большое количество измерений, и вам необходимо получить случайные выборки, которые обязательно отразят истинное базовое распределение данных.