Слушайте, я тут NLP-шной ересью занялся.
У меня есть довольно большой корпус текста переписки с тех. поддержкой.
Я хотел сгруппировать вопросы по тематикам.
Для этого хотел лихо-задорно построить граф, где узлами будут уникальные слова, а ребрами связи между словами.
Связью считаю наличие двух слов в одной беседе клиента с тех. поддержкой.
После удаления стоп-слов и стемминга. У меня получилось где-то 130 тыс узлов и порядка 14 млн ребер.
И тут я понял, что ничего не выйдет. Даже небольшие (50 тыс.) сэмплы из этих ребер отрисовываются с большим трудом.
Скажите, я нормальный или вообще не в ту степь полез?..
Может можно как-то еще слова сгруппировать, а потом уже граф строить?
Или графы в NLP строить пропащая затея?