IG
1) Взять первые K токенов каждого документа, положить их через сепаратор, классифицировать как один документ
2) Посчитать для каждого документа эмбеддинг фиксированной сеткой, сделать любой пулинг этих эмбеддингов с головой на классификацию
3) Сделать суммаризацию каждого документа, goto 1
4) Отобрать самые представительные документы любым способом (тематическое моделирование, кластеризация), goto 1
5) Руками настрогать фичей и мета-фичей по документам, обучить классификатор

