Bootstrap as a statistical hypotheses validation method

Видео 1: https://vk.com/video-169934613_456239025

Видео 2: https://www.youtube.com/watch?v=-zps6hm0nX8

Видео 3: https://www.youtube.com/watch?v=sSo7IoqeIOE

Что такое бутстрап

Bootstrap – целое семейство методов, позволяющее проверять гипотезы с помощью повторных выборок. Смысл метода в том, что обладая только данными по имеющейся выборке, существует возможность оценить любой ее параметр, построив эмпирическое распределение параметра.

Таким образом:

Бутстрап позволяет строить доверительный интервал для любого параметра распределения, не применяя для этого аналитическую формулу
Основное преимущество Бутстрап – проверять гипотезы для любых параметров распределения или моделей: Перцентили/Квантили/Децили и т.п.
Бутстрап проверяет статистические гипотезы без опоры на определенное теоретическое распределение данных (в отличие от классических стат. критериев)
Бутстрап позволяет сделать оценку любого «сложного» параметра путем нахождения доверительных интервалов для него. А для проверки гипотез – путем вычисления их разницы

Разберем на примере

Кейс: Добавили новую витрину “Ваши прошлые покупки” на чекаут. Интересно, как изменился средний чек.

Как оценить влияние эксперимента на прибыль? Можем посмотреть на распределение, описательные статистики, подобрать тест и проверить значимость различий.

На глаз кажется, что в тестовой группе мы стали зарабатывать больше.

Но бизнесу захочется понять, чем объясняется эта изменчивость (разница, которую мы наблюдаем), за счет какой аудитории достигли эффекта?

Очевидно распределение не соответствует нормальному: оно смещено влево и имеет явные выбросы. Поэтому использовать среднее не очень корректно. Гораздо лучше отражать центральную тенденцию будет Медиана.

<aside> 💡 Мы же можем применить какой-нить знакомый нам критерий, зачем работать с bootstrap?

В примере, который разбираем, U-критерий Манна-Уитни лучше всего подойдет для задачи. Он даст ответ на вопрос, значимо ли различаются распределения или нет. Но хочется понимать, где именно эта разница возникла (в какой части наблюдений), для этого мы одним u-test не обойдемся.
У каждого критерия свое аналитическое решение, которое требует придерживаться ряда допущений (например, одинаковая дисперсия/ одинаковый размер выборки/одинаковая форма распределений и т.п). Такая возможность не всегда имеется
Мы не можем использовать ЦПТ, чтобы построить ДИ для медианы. ЦПТ работает именно со средними, а для медианы легко найти контрпример того, что она будет распределяться нормально в соответствии с ЦПТ.

Именно поэтому bootstrap может оказаться отличным методом для нам.

</aside>

Что такое бутстрап

Разберем на примере

Применяем bootstrap