Телеграмм чат группы codingteam страница 18966

пока я смотрю на такое:
1. достать из исходного текста токены
2. убрать все непроизносимые символы
3. бахнуть лемматизатором на полученное и на транскрипт
4. (возможно) убрать стоп-слова
5. скормить полученное диффу

источник

14:11пожаловаться #5

ttldtor in codingteam

блин, забыл как назывался поиск в базах по созвучности

источник

14:16пожаловаться #6

ttldtor in codingteam

soundex, ага

источник

14:16пожаловаться #7

ttldtor in codingteam

фонетические алгоритмы...в принципе, если для слов сигнатуры составить и искать бы по сигнатурам звучания

источник

14:17пожаловаться #8

Kerrigan in codingteam

https://github.com/pavlo/russian_metaphone есть какая-то штука

GitHub

pavlo/russian_metaphone

Implements the "Metaphone" phonetic algorithm adapted for Russian language - pavlo/russian_metaphone

источник

14:18пожаловаться #9

ttldtor in codingteam

угу, я ещё на хабре глянул

источник

14:19пожаловаться #10

codingteam@cjr in codingteam

Minoru
утро!

источник

14:20пожаловаться #11

ttldtor in codingteam

но от мусора он не спасёт, наверное. Зато можно взять последовательность метафонных сигнатур и сравнить с другой последовательностью, учитывая возможность мусора +- 1 сигнатура, например. Получим какой-то процент похожести

источник

14:21пожаловаться #12

FORTRAN ONE LOVE in codingteam

codingteam@cjr

Minoru
утро!

Утро!

источник

14:22пожаловаться #13

ttldtor in codingteam

или вообще на всё предложение бахнуть

источник

14:22пожаловаться #14