Всем привет, есть задача: поиск близких по контексту документов в базе1 для каждого документа из базы2. Есть два подхода:
1.)Берём предобученную модель w2v на русском корпусе, переводим документы из обеих баз в вектора. Далее ищем для каждого документа в базе2 близкий по контексту из базы1.
2. База1 в пять раз больше базы2, обучаем d2v модель на базе1 и ищем для каждого документа из базы2 ближайший в базе1.
Вопросы:
1)Корректен ли второй подход?
2)Порекомендуйте модель под русский корпус?
3)Есть ли ещё варианты решения задачи и какой из них лучше?
Многое зависит от размера ваших баз.
Если они небольшие, то вы можете спокойно использовать либо gensim, либо ,bigArtm, для построения системы индексов, начиная от tf-idf, LSI, если побольше то и LDA стоит использовать
В зависимости от того какую близость вы ищете (многозначительно получилось), то и используйте те или инные индексы по отдельности или через их суперпозицию.
Если вы ищете по ключевым словам, где они чаще встречаются, то лучше tf-idf, если нужно, чтобы и синонимы учитывались - то ищите по индексу LSI (LDA - оно лучше себя показывает на большей коллекции, чем LSI и наоборот)