делаешь счетчики каждого значения фичи. количество уникальных значений фичи и все что придет в голову, как превратить числовой ряд в набор признаков фиксированного размера
Чето я застопрился. Все сгруппировал, сделал агрегацию, джейсоны перевел в sparse vector, categorial features просто перевел в вектор с повторяющимися значениями, а по date_diff сделал среднее. Пытался все закинуть vector assembler, а потом хи квадратом уменьшить размерность, но вечно ругается на несоответствие размерностей где-то. Мб ты в курсе как вообще правильно сделать?