Size: a a a

2020 October 11

t

ttldtor in codingteam
всё к этому обычно сводится
источник

t

ttldtor in codingteam
сложность заключается в d-мерном представлении этого ...гм... всего
источник

K

Kerrigan in codingteam
источник

t

ttldtor in codingteam
возможно, тебе будет проще потыкать нейронки или всякие алгоритмы кластеризации
источник

K

Kerrigan in codingteam
пока я смотрю на такое:
1. достать из исходного текста токены
2. убрать все непроизносимые символы
3. бахнуть лемматизатором на полученное и на транскрипт
4. (возможно) убрать стоп-слова
5. скормить полученное диффу
источник

t

ttldtor in codingteam
блин, забыл как назывался поиск в базах по созвучности
источник

t

ttldtor in codingteam
soundex, ага
источник

t

ttldtor in codingteam
фонетические алгоритмы...в принципе, если для слов сигнатуры составить и искать бы по сигнатурам звучания
источник

K

Kerrigan in codingteam
https://github.com/pavlo/russian_metaphone есть какая-то штука
источник

t

ttldtor in codingteam
угу, я ещё на хабре глянул
источник

c

codingteam@cjr in codingteam
Minoru
утро!
источник

t

ttldtor in codingteam
но от мусора он не спасёт, наверное. Зато можно взять последовательность метафонных сигнатур и сравнить с другой последовательностью, учитывая возможность мусора +- 1 сигнатура, например. Получим какой-то процент похожести
источник

FO

FORTRAN ONE LOVE in codingteam
codingteam@cjr
Minoru
утро!
Утро!
источник

t

ttldtor in codingteam
или вообще на всё предложение бахнуть
источник

g

gsomix in codingteam
Minoru, фортраноутро!
источник

t

ttldtor in codingteam
puts RussianMetaphone::process("Мальденштам") # => малдинштам

это, конечно, ппц
С учётом того, что правильно будет "Мандельштам"
источник

t

ttldtor in codingteam
и оно даже не соспоставится
источник

K

Kerrigan in codingteam
оба источника можно обработать
источник

O

Omap in codingteam
процкий
источник

t

ttldtor in codingteam
так придётся все возможные ошибки учитывать для русского быдло-языка
источник