Size: a a a

2019 September 26

C

Cyberdine Engineering🐤 in Scrapy
Кирилл
Определяешь 403 как бан и он возьмет другую прокси
в BanDetectionMiddleware.process_response сказать мол , if request.status 403 ?
источник

C

Cyberdine Engineering🐤 in Scrapy
return retry ?
источник

МС

Михаил Синегубов in Scrapy
блин, ты код смотрел? доки читал?

1.
   def process_response(self, request, response, spider):
       return self._handle_result(request, spider) or response

по сути, возвращает либо респонс (если бана нет), либо реквест.

2. курим доку по скрапи, для этого метода в мидлваре https://docs.scrapy.org/en/1.6/topics/downloader-middleware.html?highlight=Middleware#scrapy.downloadermiddlewares.DownloaderMiddleware.process_response
если метод возвращает респонс, то Ок, он обрабатывается
если метод возвразает реквест, то он запланируется на выполнение.

3. если метод выше вернет реквест, то он запланируется на выполнение. И перед выполнением пройдет через эту же мидлварю, и ему назначится новая прокся
источник

МС

Михаил Синегубов in Scrapy
а на основе этого ты извращайся как хочешь
источник

МС

Михаил Синегубов in Scrapy
и да, если посмотришь политику этой либы, то увидишь, что ращрешены только ответы NOT_BAN_STATUSES = {200, 301, 302} все остальное считается баном
источник
2019 September 27

i

ildar in Scrapy
Cyberdine Engineering🐤
это классическая ретри
тут нет перенаправлению с изменение прокси
я же сказал читать issues, там есть решение про респонс-коды и как их даже в кеш не забрасывать:
https://github.com/TeamHG-Memex/scrapy-rotating-proxies/issues/20
источник

MS

Maxym Shyrchenko in Scrapy
Такой вопрос, есть паук который парсит все страны с сайта, но в файл записывает всегда только первую, в чем проблема, подскажите?
источник

MS

Maxym Shyrchenko in Scrapy
источник

MS

Maxym Shyrchenko in Scrapy
источник

МС

Михаил Синегубов in Scrapy
внутри цикла делай относительный xpath

если кратко, в строке 8 ты получаешь УКАЗАТЕЛЬ на место в странице.
в строке 13 ты начинаешь с "//", т.е., ты снова делаешь поиск с начала файла
источник

МС

Михаил Синегубов in Scrapy
если  не понял - спрашивай, с этим почти все спотыкаюься :), помоему даже вообще все на это нарывались и бились башкой об стену 😂
источник

MS

Maxym Shyrchenko in Scrapy
Михаил Синегубов
если  не понял - спрашивай, с этим почти все спотыкаюься :), помоему даже вообще все на это нарывались и бились башкой об стену 😂
Сейчас я про это почитаю, а потом если что спрошу
источник

MS

Maxym Shyrchenko in Scrapy
Михаил Синегубов
если  не понял - спрашивай, с этим почти все спотыкаюься :), помоему даже вообще все на это нарывались и бились башкой об стену 😂
Тоесть нужна точка в начале, правильно?
источник

МС

Михаил Синегубов in Scrapy
Maxym Shyrchenko
Тоесть нужна точка в начале, правильно?
ага, "./" вот так, по идее, а что дальше - х/з
источник

К

Кирилл in Scrapy
Maxym Shyrchenko
Тоесть нужна точка в начале, правильно?
А с присвоением item["country "] нет проблем?
источник

МС

Михаил Синегубов in Scrapy
Кирилл
А с присвоением item["country "] нет проблем?
а в чем должна быть проблема?
источник

К

Кирилл in Scrapy
Михаил Синегубов
а в чем должна быть проблема?
Это как вчера у Тима было, его код такой же и кидал TypeError: 'ItemMeta' object does not support item assignment
Я обычно так вообще не делаю, так что интересно
источник

МС

Михаил Синегубов in Scrapy
ну, там чет не то было, ибо даже офф. доки так делают :
https://docs.scrapy.org/en/latest/topics/items.html#setting-field-values
источник

МС

Михаил Синегубов in Scrapy
я как раз только так и делаю :)
источник

К

Кирилл in Scrapy
Да, я сейчас исходники читаю, там есть обработка getitem
источник