Телеграмм чат группы scrapy

Насчёт spider_idle и прочего не вижу ничего плохого. Дубликаты ловить базой, если Сай один - норм отрабатывает.
Если, конечно, куча сайтов - могут быть зависоны.
А так, на нескольких десятков млн записей успешно отрабатывало

источник

21:17пожаловаться #9

Bulatbulat48 in Scrapy

Ozon

источник

21:39пожаловаться #10

Илья in Scrapy

Спасибо

источник

21:43пожаловаться #11

Dmitry in Scrapy

Ну 3 минуты норм, если это раз в час случается. А так да, надо иметь в виду

источник

21:54пожаловаться #12

Dmitry in Scrapy

Да, такой план и есть, спасибо, что подтвердили

источник

21:55пожаловаться #13

Evgen in Scrapy

Скока тайм-аут поставите стока и будет))

источник

21:55пожаловаться #14

МС

Михаил Синегубов... in Scrapy

алгоритм, который у меня успешно работает на многих пауках.
1. в базе уникальность по URL, отключаешь нафих фильтр дубликатов в скрапи, потому что их не будет
2. для ссылок есть еще поле статус, по умолчанию он "0"\
3. когда забираешь ссылки, ставишь для них статус "1"
4. после обработки меняешь статус, либо по коду ответа (200, 404 и т.д.), либо свои номера вводи. Я ошибки обычно отрицательными пишу

это не идеал, Женя правильно написал, паук будет дожидаться, когда последняя ссылка обработается. Но, если у тебя все ссылки (или практически все) рабочие, то и так все норм.
И да, конечно же, идеально заморочаться планировщиком, но, я, пока, не добрался до них :).

Ну и, код паука, который у меня обычно работает:

https://gist.github.com/Mifody/7e48f64417e4c7dbe1d5777b2aebdab7

источник

22:11пожаловаться #15

Dmitry in Scrapy

Да, спасибо, у меня ровно такой флоу и был в голове. Надо только поэкспериментировать сколько линков за раз выгружать из базы и скармливать потом в очередь реквестов скрапи, чтобы память вся не съедалась - 10к, 100к или сколько.

источник

22:24пожаловаться #16

Kayota in Scrapy

Ребят, есть идеи, почему у меня вместо текста в теге <span> (34 Eur) находит 'AAA'?

источник

22:47пожаловаться #17

Andrey Rahmatullin in Scrapy

да, много

источник

22:47пожаловаться #18

Kayota in Scrapy

Можно самую очевидную?

источник

22:49пожаловаться #19

Andrey Rahmatullin in Scrapy

разрываюсь между "в странице написано "ААА"" и "селектор выбрал не тот элемент"

источник

22:51пожаловаться #20