Size: a a a

2021 April 07

S

SoHard 🎄 in Scrapy
а если нет то будешь "жсоны селениумами парсить"
источник

МС

Михаил Синегубов... in Scrapy
ну, эт классика :)
источник

М

Максим in Scrapy
Подскажите, как отключить фильтр дупликатов?
источник

SS

Stepan Smirnov in Scrapy
Один паук генерирует до 1.000.000 уникальных item'ов за пробег, при этом ожидается что паук встретит большое количество дубликатов (в несколько раз больше).
Каждый item имеет уникальный sku (8 цифр).
Одновременно работает 25 пауков (версии сайта для разных стран) на нескольких серверах, список уже встреченных item'ов нужно сделать доступным для каждого паука.
В среднем будет генерироваться 3.000 item'ов/минуту.

Какие инструменты, либы стоит использовать для фильтрации дубликатов?
источник

К

Кирилл in Scrapy
Это есть в документации
источник

К

Кирилл in Scrapy
Тебе именно в рантайме нужно? Намного проще сделать постпроцессинг
источник

К

Кирилл in Scrapy
Еще можно просто пихать все айтемы в бд с уникальным полем, бд сама будет отсеивать дубликат инсерты
источник

SS

Stepan Smirnov in Scrapy
В рантайме
источник

К

Кирилл in Scrapy
Или разделить логику на двух пауков, продюсер/консумер. Сначала собирать айтемы из списков, а потребителями консумить
источник

К

Кирилл in Scrapy
источник

r

rink0 in Scrapy
так, это я вот только что нашёл. но вот вопрос почему requests не возвращает вообще пустые дивы
источник

r

rink0 in Scrapy
и тут замкнутый круг выходит..
в аякс запрос нужно кидать все эти id, где находиться ссылка. но в requests они почему то пустые
соотвественно у меня просто нет возможности сэмулировать ajax
источник

S

SoHard 🎄 in Scrapy
потому что есть данные которые загружены сразу и те которые подгружаются когда ты скроллишь/или у тебя есть место на екране куда их вставить
источник

S

SoHard 🎄 in Scrapy
если у браузера хватает данных чтобы сделать запрос то и у тебя должно хватить
источник

r

rink0 in Scrapy
да уже разобрался, херня какая то вышла. я изначально ответ реквестов сувал в html файл и запускал в браузере, и там уже по исходникам шуршал. а там почему-то дивов нет. когда если в пайчарме посмотреть, эти дивы есть и там ссылки все есть
источник

r

rink0 in Scrapy
уже просто пишу парсер ссылок этих
источник

r

rink0 in Scrapy
но bs4 уже такое говно, по сравнению со скрапи(для меня)
источник

S

SoHard 🎄 in Scrapy
есть parsel
источник

r

rink0 in Scrapy
да я бы скрапи пользовался, просто заставили. в след раз буду настаивать аргументируя почему bs4 говно
источник

r

rink0 in Scrapy
я просто скакнул резко со скрапи на bs4 и это адище)))
не знаю как я на нём раньше парсеры писал, садомазохизм
источник