Телеграмм чат группы python_scripts страница 29303

Подскажите, каким путем лучше пойти?

Есть два больших массива адресов, среди которых много пересекающихся. В обоих массивах адреса внесены руками и без особой системы. Например в некоторые из адресов включен почтовый индекс, в другие нет. Во многих случаях помимо адреса присутствует разная дополнительная информация. Требуется по возможности точно выявить совпадающие в обоих массивах адреса.

Я наметил следующий план:
1) Строится словарь частотности всех слов не являющихся числами по всем записям, из него берутся 2% самых часто встречающихся.
2) Эти слова, знаки препинания и некоторое количество других, заранее заданных слов считаются «мусорными» и удаляются из адресов.
3) Производится вычисление расстояния Левенштейна для всех возможных пар адресов. Для вычислений используется модуль Levenshtein.

К сожалению, скорость работы получилась недопустимо низкой. Нет ли подхода, позволяющего проделать эту работу более эффективно?

источник

18:19пожаловаться #6

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов

Да

источник

18:19пожаловаться #7

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов

Он много чего умеет

источник

18:20пожаловаться #8

Alexander in Сообщество Python Программистов

Гуглить по «векторный анализ текста» и «латентно-семантический анализ текста». Если осознал как работает Ливенштейн - доберёшься до решения довольно быстро

источник

18:21пожаловаться #9

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов

А так - с удовольствием бы

источник

18:22пожаловаться #10

Alexander in Сообщество Python Программистов

У нас конкретно это на плюсах

источник

18:22пожаловаться #11

Alexander in Сообщество Python Программистов