Size: a a a

2021 April 20

E

Evgen in Scrapy
Spider idle так се
источник

E

Evgen in Scrapy
Условно говоря 98 запросов отработают за 10 секунд а 2 будут висеть 3 минуты
источник

E

Evgen in Scrapy
Пока они не отвалятся новая пачка не заскедулится
источник

E

Evgen in Scrapy
Но это может не быть критично
источник

E

Evgen in Scrapy
Индивидуально же
источник

И

Илья in Scrapy
Напомните сайт, где можно curl вставлять
источник

И

Илья in Scrapy
Нашел
источник

И

Илья in Scrapy
Можете посоветовать сайт, где можно потренироваться в парсинге на сайтах, где есть авторизация?
источник

МС

Михаил Синегубов... in Scrapy
Насчёт spider_idle и прочего не вижу ничего плохого. Дубликаты ловить базой, если Сай один - норм отрабатывает.
Если, конечно, куча сайтов - могут быть зависоны.
А так, на нескольких десятков млн записей успешно отрабатывало
источник

B

Bulatbulat48 in Scrapy
Ozon
источник

И

Илья in Scrapy
Спасибо
источник

D

Dmitry in Scrapy
Ну 3 минуты норм, если это раз в час случается. А так да, надо иметь в виду
источник

D

Dmitry in Scrapy
Да, такой план и есть, спасибо, что подтвердили
источник

E

Evgen in Scrapy
Скока тайм-аут поставите стока и будет))
источник

МС

Михаил Синегубов... in Scrapy
алгоритм, который у меня успешно работает на многих пауках.
1. в базе уникальность по URL, отключаешь нафих фильтр дубликатов в скрапи, потому что их не будет
2. для ссылок есть еще поле статус, по умолчанию он "0"\
3. когда забираешь ссылки, ставишь для них статус "1"
4. после обработки меняешь статус, либо по коду ответа (200, 404 и т.д.), либо свои номера вводи. Я ошибки обычно отрицательными пишу

это не идеал, Женя правильно написал, паук будет дожидаться, когда последняя ссылка обработается. Но, если у тебя все ссылки (или практически все) рабочие, то и так все норм.
И да, конечно же, идеально заморочаться планировщиком, но, я, пока, не добрался до них :).

Ну и, код паука, который у меня обычно работает:

https://gist.github.com/Mifody/7e48f64417e4c7dbe1d5777b2aebdab7
источник

D

Dmitry in Scrapy
Да, спасибо, у меня ровно такой флоу и был в голове. Надо только поэкспериментировать сколько линков за раз выгружать из базы и скармливать потом в очередь реквестов скрапи, чтобы память вся не съедалась - 10к, 100к или сколько.
источник

K

Kayota in Scrapy
Ребят, есть идеи, почему у меня вместо текста в теге <span> (34 Eur) находит 'AAA'?
источник

AR

Andrey Rahmatullin in Scrapy
да, много
источник

K

Kayota in Scrapy
Можно самую очевидную?
источник

AR

Andrey Rahmatullin in Scrapy
разрываюсь между "в странице написано "ААА"" и "селектор выбрал не тот элемент"
источник