Size: a a a

2021 April 02

AR

Andrey Rahmatullin in Scrapy
так и ты можешь сделать
источник

V

Victor in Scrapy
Ребят, подскажите вот если возвращается в скрапи 200 ответ, но страница с капчей. Как ее обратно отправить на парсинг?
источник

A

Andrii in Scrapy
Victor
Ребят, подскажите вот если возвращается в скрапи 200 ответ, но страница с капчей. Как ее обратно отправить на парсинг?
Проверить по тексту и сделать колбек
источник

МС

Михаил Синегубов... in Scrapy
Victor
Ребят, подскажите вот если возвращается в скрапи 200 ответ, но страница с капчей. Как ее обратно отправить на парсинг?
1. без проксей ИМХО, ловить тут нехрен
2. https://github.com/TeamHG-Memex/scrapy-rotating-proxies - этот умеет детектить баны по телу страницы (считаем, что каптча=бан). Только надо покрутить приоритеты мидлварей, что бы текст страницы стал текстом. То дефолту - там косячек
источник

V

Victor in Scrapy
Andrii
Проверить по тексту и сделать колбек
А колбек разве сделается на тот же урл - там же был 200 респонс.
источник

A

Andrii in Scrapy
Victor
А колбек разве сделается на тот же урл - там же был 200 респонс.
не понял
источник

МС

Михаил Синегубов... in Scrapy
Victor
А колбек разве сделается на тот же урл - там же был 200 респонс.
dont_filter=True


как то так
источник

V

Victor in Scrapy
Михаил Синегубов
dont_filter=True


как то так
Спасибо!
источник

NZ

Nikita Zhidkov in Scrapy
Всем привет, хочу добавить селениум в проект, в документации указан этот пакет https://github.com/clemfromspace/scrapy-selenium

Подскажите, пожалуйста, как сделать чтобы LinkExtractor использовал для запросов селениум?
источник

NZ

Nikita Zhidkov in Scrapy
Есть такой вариант https://stackoverflow.com/questions/45532265/using-scrapy-linkextractor-with-selenium, но возможно как-то из коробки это можно сделать всё
источник

МС

Михаил Синегубов... in Scrapy
Nikita Zhidkov
Всем привет, хочу добавить селениум в проект, в документации указан этот пакет https://github.com/clemfromspace/scrapy-selenium

Подскажите, пожалуйста, как сделать чтобы LinkExtractor использовал для запросов селениум?
давай чуть по конкретнее. Тебе надо что бы rules заработали. Или просто через  LinkExtractor доставать ссылки?
источник

NZ

Nikita Zhidkov in Scrapy
У меня есть рула
Rule(LinkExtractor(allow=r'.*'), callback='parse_item', follow=True),
т.е мне обойти весь сайт надо, и вот я хочу чтобы в коллбек приходил результат от селениума
источник

NZ

Nikita Zhidkov in Scrapy
Под результатом имею ввиду то, что позволит вытащить динамический контент)
источник

NZ

Nikita Zhidkov in Scrapy
А то я второй день со scrapy, может плохо объясняю свою цель
источник

МС

Михаил Синегубов... in Scrapy
хм, конретно в связке с Rule, похоже, надо пользовать параметр process_request, что бы он реквесты через силениум пропустил.
https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Rule
но это я по документации почитал
источник

МС

Михаил Синегубов... in Scrapy
хм, почитал еще раз. Не уверен на 100% что поможет
источник

NZ

Nikita Zhidkov in Scrapy
" This callable should take said request as first argument and the Response from which the request originated as second argument." очень похоже на то что тогда 2 раза придётся запрос делать
источник

NZ

Nikita Zhidkov in Scrapy
окей, если не через Rule, надо тогда просто руками написать обход того что вернёт LinkExtractor, так получается? Обход имею ввиду послать запросы от селениума
источник

МС

Михаил Синегубов... in Scrapy
Nikita Zhidkov
" This callable should take said request as first argument and the Response from which the request originated as second argument." очень похоже на то что тогда 2 раза придётся запрос делать
def _identity_process_request(request, response):
   return request

с  какого перепуга?
источник

МС

Михаил Синегубов... in Scrapy
запрос и респонс, с которого ты создал запрос
источник