Leonid
коллеги, все с Новым Годом!
совет нужен..
есть 7 млн предложений (5-10 слов в каждом, но плюс в том, что все слова несут смысловую нагрузку - нет стоп слов) половина размечена на 10 классов. Проблема в том, что очень много уникальных слов получается. Т.е. тупо запихнуть в какой-нибудь векторайзер не вариант - матрица получается 7 млн х 40.000
Чем лучше подготовить данные для обучения? И вообще какую стратегию тут применить?
Можно опять таки в векторайзер, но батчами, чтобы в память влазило.
Можно слова через готовый fasttext пропустить и потом векторы усреднить в рамках одного текста (или как-то хитрее агрегировать), тогда размерность сильно меньше будет.