Видео 1: https://vk.com/video-169934613_456239025
Видео 2: https://www.youtube.com/watch?v=-zps6hm0nX8
Видео 3: https://www.youtube.com/watch?v=sSo7IoqeIOE
Bootstrap – целое семейство методов, позволяющее проверять гипотезы с помощью повторных выборок. Смысл метода в том, что обладая только данными по имеющейся выборке, существует возможность оценить любой ее параметр, построив эмпирическое распределение параметра.
Таким образом:
Кейс: Добавили новую витрину “Ваши прошлые покупки” на чекаут. Интересно, как изменился средний чек.
Как оценить влияние эксперимента на прибыль? Можем посмотреть на распределение, описательные статистики, подобрать тест и проверить значимость различий.
На глаз кажется, что в тестовой группе мы стали зарабатывать больше.
Но бизнесу захочется понять, чем объясняется эта изменчивость (разница, которую мы наблюдаем), за счет какой аудитории достигли эффекта?
Очевидно распределение не соответствует нормальному: оно смещено влево и имеет явные выбросы. Поэтому использовать среднее не очень корректно. Гораздо лучше отражать центральную тенденцию будет Медиана.
<aside> 💡 Мы же можем применить какой-нить знакомый нам критерий, зачем работать с bootstrap?
В примере, который разбираем, U-критерий Манна-Уитни лучше всего подойдет для задачи. Он даст ответ на вопрос, значимо ли различаются распределения или нет. Но хочется понимать, где именно эта разница возникла (в какой части наблюдений), для этого мы одним u-test не обойдемся.
У каждого критерия свое аналитическое решение, которое требует придерживаться ряда допущений (например, одинаковая дисперсия/ одинаковый размер выборки/одинаковая форма распределений и т.п). Такая возможность не всегда имеется
Мы не можем использовать ЦПТ, чтобы построить ДИ для медианы. ЦПТ работает именно со средними, а для медианы легко найти контрпример того, что она будет распределяться нормально в соответствии с ЦПТ.
Именно поэтому bootstrap может оказаться отличным методом для нам.
</aside>