просто стоит задача определения вида деятельности клиента на основе комментариев к платежным документам, я использовал word2vec с NLPub, кластеризовал на 800 кластеров, и получал веса слов в тематиках кластеров, после этого пытался считать сходство между описанием деятельности и текстом платежек с помощью word2vec с tf-idf. Выходит не очень, т.е. хорошие не зашумленные тексты определяет нормально, а когда есть какой-то разброс по словам, например закупки свойственные всем компаниям, оплаты за аренду, направление деятельности начинает определяться плохо. Обучить не на чем, потому что не знаешь какие клиенты работают по заявленной деятельности, пробовал определять характерные слова для этой деятельности на основе истории, считая, что большинство не врет, но тогда в описания попадают характерные для всех слова, выкидывать которые тоже нельзя, так как есть компании, которые специализируются только на перевозках, а есть те, которые просто доставляют товары, tf-ifd частично решает проблему, но не всегда