Пардон, не увидел сразу. Так Вы же должны настраивать OE на всем датасете (до его разбиения).
А я думал как раз наоборот, сначала разбивается датасет, потом только тренировочная выборка изменяется. Если делать по другому, то произойдет утечка данных, т.е. часть информации о данных попадет в тестовую выборку. Во втором курсе специализации, при работе с категориальными признакими, использовали пайплайны при кроссвалидации, чтобы информация не утекла в тестовый фолд.