Size: a a a

2020 March 16

MV

Maksim Vladimirovich in Scrapy
Vladyslav Babych
Привет, мне нужно запоминать индекс нахождения на странице. При этом я хожу поочерёдно по страницам, соответственно на каждую страницу запускается новый метод parse c помощью inline request. Как мне можно между разными запусками parse передать уже спаршенное колличество элементов. Что-бы счётчик не начинался на каждой старнице сначала?
Переменную как глобальную объявить?
источник

МС

Михаил Синегубов in Scrapy
Maksim Vladimirovich
Переменную как глобальную объявить?
в пределах паука? или что?
и назначение этой переменной какое?
источник

К

Кирилл in Scrapy
Не нужна там переменная и индекс этот. Просто flow нормальный сделать
источник

S

Sergey in Scrapy
На польскую прокси перестал капчей плеваться
источник

S

Sergey in Scrapy
но зараза медленно, если таймаут меньше 5 секунд или всегда одинаковый снова капча. поэтому поставил таймаут рандомный от 6 до 10 секунд
источник

К

Кирилл in Scrapy
DOWNLOAD_DELAY и так разброс делает рандомный
источник

К

Кирилл in Scrapy
интересно как ты фикс делай сделал
источник

S

Sergey in Scrapy
я sleep ом делай делал). Вот доку почитал, поставил через DOWNLOAD_DELAY )))
источник

S

Snoop Duck in Scrapy
Сейчас изучаю модуль scrapy-rotating-proxies. Поставил настройку ROTATING_PROXY_CLOSE_SPIDER=True, чтобы спайдер закрывался при истощении всех прокси. Попробовал потестить: исключение CloseSpider появляется, но спайдер не завершается, а продолжает работать, генерируя CloseSpider для каждого следующего запроса. Кто-нибудь знает, как заставить спайдер остановиться? Насколько я знаю, CloseSpider завершает работу спайдера только при непосредственном вызове из коллбэка, а здесь исключение генерируется внутри миддлвара
источник

RG

Roman Gangal in Scrapy
Snoop Duck
Сейчас изучаю модуль scrapy-rotating-proxies. Поставил настройку ROTATING_PROXY_CLOSE_SPIDER=True, чтобы спайдер закрывался при истощении всех прокси. Попробовал потестить: исключение CloseSpider появляется, но спайдер не завершается, а продолжает работать, генерируя CloseSpider для каждого следующего запроса. Кто-нибудь знает, как заставить спайдер остановиться? Насколько я знаю, CloseSpider завершает работу спайдера только при непосредственном вызове из коллбэка, а здесь исключение генерируется внутри миддлвара
Рекомендую следующую схему. Пишем сторонний скрипт который пишет список проксей в БД с регулярным обновлением если есть такая возможность. А в скрепи делаем мидвару которая с базы тянет рандомную проксю на каждый запрос. Вот тебе и ввесь рататор) при чем централизированный. Не нужно каждому боту свои файлики с проксями подсовывать. Все боты берут прокси с одной базы рандомно
источник

К

Кирилл in Scrapy
Roman Gangal
Рекомендую следующую схему. Пишем сторонний скрипт который пишет список проксей в БД с регулярным обновлением если есть такая возможность. А в скрепи делаем мидвару которая с базы тянет рандомную проксю на каждый запрос. Вот тебе и ввесь рататор) при чем централизированный. Не нужно каждому боту свои файлики с проксями подсовывать. Все боты берут прокси с одной базы рандомно
Уже написано такое
источник

RG

Roman Gangal in Scrapy
Кирилл
Уже написано такое
скинь урл, может поменяю свои костыли)
источник

К

Кирилл in Scrapy
Roman Gangal
скинь урл, может поменяю свои костыли)
источник

RG

Roman Gangal in Scrapy
спасибо!
источник

AK

Anil Kumar in Scrapy
How to download the same document multiple times using scrapy?
источник

К

Кирилл in Scrapy
yield scrapy.Request(response.url, dont_filter=True)
источник

AK

Anil Kumar in Scrapy
Кирилл
yield scrapy.Request(response.url, dont_filter=True)
I'm talking about files pipeline.
источник

AK

Anil Kumar in Scrapy
We can't download duplicates.
источник

AK

Anil Kumar in Scrapy
But I want to download duplicates
источник

К

Кирилл in Scrapy
so, do you want to override file?
источник