А есть какие-то рекомендации по ускорению за счёт уменьшения размера датасета? У меня вот 4М строк и ощущение, что гораздо меньшего количества было бы достаточно.
Могу, конечно, просто проверить, сделав случайную подвыборку из трейна, но ведь пахнет типовой задачкой. Наверняка есть уже какие-то наработки по этому вопросу