Давай наши с тобой объединим и заопенсорсим)
Мне кажется, Вы изложили возможный путь, но не факт, что лучший.
Сама постановка вопроса о семантическом поиске мутна, так как есть огромное количе тво разновидностей задачи.
В любом случае, это подзадача стандртного информационного поиска, где опыт показывает важность простого совадения, размеров минимального окна, кворума и т.п.
При этом результаты синтаксического анализа не факт, что будут наиболее зна имчм фактором. Тем более, что синтаксис весьма ломок для многих типов текстов.
Недавно была статейка "Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу"а от Яндекса на хабре