На самом деле, как я считаю, нереально это все автоматизировать до конца понадобиться работа ручками, мне друг как то пытался большую семантику разбить с помощью яндексового mystem
Он приводит все слова к простой форме и стоит их в одном порядке
Дальше их можно группировать
https://yandex.ru/dev/mystem/Все равно много дублей вышло