в языках с морфологией нужен комбинированный подход: вместо вектора слова индексируемого по ID слова использовать комбинации (вектор из ID-леммы, часть-речи, морф. характеристики), которые подавать на вход. к сожалению, в word2vec Hierarchical Skip-Gram сложно устроен, чтобы напрямую этот комбинированный подход туда впендюрить. наверное, можно попробовать в gensim такое добавить.
потому что без комбинированного подхода словарь становится очень большим (2GB для 300 координат) и точность на редких словах сильно падает, и даже огромный корпус не сильно спасает. ну а второе направление развития word2vec — не соседние слова использовать, а слова, близкие в графе синтаксических связей. должно ещё повысить точность.
у меня есть некая самодельная штука, она прямо по зализняку может часть речи и тип словоизменения расставлять по словарю wiktionary. а в solarix словари есть какие-то? ага, вижу что есть, надо скачать
потому что без комбинированного подхода словарь становится очень большим (2GB для 300 координат) и точность на редких словах сильно падает, и даже огромный корпус не сильно спасает. ну а второе направление развития word2vec — не соседние слова использовать, а слова, близкие в графе синтаксических связей. должно ещё повысить точность.
вот и я о том же, либо теряем связность из-за словоформ, либо добавляем бреда, убрав словоизменение
у меня есть некая самодельная штука, она прямо по зализняку может часть речи и тип словоизменения расставлять по словарю wiktionary. а в solarix словари есть какие-то? ага, вижу что есть, надо скачать
solarix умеет снимать морфологическую неоднозначность для русского языка с неплохой точностью, для этого и использовал.