допустим, у тебя CPI $0.5, то есть за $200 ты получишь 400 установок за все время теста. ты замеряешь ретеншн первого дня, получается 43%.
С вероятностью 95%, если ты проведешь много таких же тестов на 400 установках, твой "настоящий" ретеншн будет в интервале от 38% до 48%.
при этом 38 - это плохо, а 48 - это хорошо, проходит по актуальным бенчмаркам.
дальше, если у тебя в следующем тесте получится 48%, то, казалось бы - рост на 5%, изменения сработали! но если посчитать, может оказаться что на такой выборке это изменение не статистически значимо, то есть "может и рили выросло, но точно (ок, не точно, а с такой-то вероятностью) сказать нельзя".
но вуду - топовый издаель и такой подход у них работает, так что не мне судить корректность их тестов :)