Size: a a a

Сообщество Python Программистов

2021 May 02

Д

Дмитрий in Сообщество Python Программистов
А как тогда savefrom.net всё качает и его не забанили?
источник

A

Alexander in Сообщество Python Программистов
А вот устроился бы к нам - знал бы у кого спросить)))
источник

Д

Дмитрий in Сообщество Python Программистов
А подскажи, он и тиктоки на изи качает?
источник

in Сообщество Python Программистов
К вам - это куда?
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
Бля, у вас Go🌚
источник

AM

Alexander Morozov in Сообщество Python Программистов
Подскажите, каким путем лучше пойти?

Есть два больших массива адресов, среди которых много пересекающихся. В обоих массивах адреса внесены руками и без особой системы. Например в некоторые из адресов включен почтовый индекс, в другие нет. Во многих случаях помимо адреса присутствует разная дополнительная информация. Требуется по возможности точно выявить совпадающие в обоих массивах адреса.

Я наметил следующий план:
1) Строится словарь частотности всех слов не являющихся числами по всем записям, из него берутся 2% самых часто встречающихся.
2) Эти слова, знаки препинания и некоторое количество других, заранее заданных слов считаются «мусорными» и удаляются из адресов.
3) Производится вычисление расстояния Левенштейна для всех возможных пар адресов. Для вычислений используется модуль Levenshtein.

К сожалению, скорость работы получилась недопустимо низкой. Нет ли подхода, позволяющего проделать эту работу более эффективно?
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
Да
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
Он много чего умеет
источник

A

Alexander in Сообщество Python Программистов
Гуглить по «векторный анализ текста» и «латентно-семантический анализ текста». Если осознал как работает Ливенштейн - доберёшься до решения довольно быстро
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
А так - с удовольствием бы
источник

A

Alexander in Сообщество Python Программистов
У нас конкретно это на плюсах
источник

A

Alexander in Сообщество Python Программистов
Мы уже начали свою ось пилить)
источник

A

Alexander in Сообщество Python Программистов
Долгий будет проект
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
Форк линуха или с нуля?
источник

Д

Дмитрий in Сообщество Python Программистов
В каком смысле? Что-то линуксоподобное?
источник

A

Alexander in Сообщество Python Программистов
Ну не так все серьезно. Пока хотим ворваться в ядерный уровень и забрать на себя сетевой стек
источник

A

Alexander in Сообщество Python Программистов
Потом заберём стек памяти и ФС
источник

A

Alexander in Сообщество Python Программистов
На этом остановимся
источник

A

Alexander in Сообщество Python Программистов
Получится глубоко модернизированное ядро линукса, у которого в юзерспейсе останутся только административные инструменты
источник

БГ

Бензофуран Гетероцик... in Сообщество Python Программистов
Оптимизация под свои задачи?
источник