пока я смотрю на такое: 1. достать из исходного текста токены 2. убрать все непроизносимые символы 3. бахнуть лемматизатором на полученное и на транскрипт 4. (возможно) убрать стоп-слова 5. скормить полученное диффу
но от мусора он не спасёт, наверное. Зато можно взять последовательность метафонных сигнатур и сравнить с другой последовательностью, учитывая возможность мусора +- 1 сигнатура, например. Получим какой-то процент похожести