Про общую задачу в целом. Есть тезаурус, допустим некий "общий". Есть новый датасет, например про медицину или что-либо еще. То есть гигабайты текстовых данных.
Соответственно нужно:
1) Найти новые концепты, выраженные в словоформах (как однословные, так и многословные)
2) Достроить тезаурус, используя эти концепты. И очевидно, что не все надо сразу куда то "прикреплять", ибо часть концептов будут гипонимами новых концептов, делать это наверное надо как то итерационно
3) Посмотреть какие старые концепты не актуальны, удалить их или пересчитать связи
В идеале это все делать автоматически, но для начала хотя бы автоматизированно.