Телеграмм чат группы scrapy

1. без проксей ИМХО, ловить тут нехрен
2. https://github.com/TeamHG-Memex/scrapy-rotating-proxies - этот умеет детектить баны по телу страницы (считаем, что каптча=бан). Только надо покрутить приоритеты мидлварей, что бы текст страницы стал текстом. То дефолту - там косячек

источник

12:42пожаловаться #4

V

Victor in Scrapy

Andrii

Проверить по тексту и сделать колбек

А колбек разве сделается на тот же урл - там же был 200 респонс.

источник

13:21пожаловаться #5

A

Andrii in Scrapy

Victor

А колбек разве сделается на тот же урл - там же был 200 респонс.

не понял

источник

13:34пожаловаться #6

МС

Михаил Синегубов... in Scrapy

Victor

А колбек разве сделается на тот же урл - там же был 200 респонс.

dont_filter=True

как то так

источник

13:37пожаловаться #7

V

Victor in Scrapy

Михаил Синегубов

dont_filter=True

как то так

Спасибо!

источник

13:53пожаловаться #8

NZ

Nikita Zhidkov in Scrapy

Всем привет, хочу добавить селениум в проект, в документации указан этот пакет https://github.com/clemfromspace/scrapy-selenium

Подскажите, пожалуйста, как сделать чтобы LinkExtractor использовал для запросов селениум?

GitHub

clemfromspace/scrapy-selenium

Scrapy middleware to handle javascript pages using selenium - clemfromspace/scrapy-selenium

источник

17:38пожаловаться #9

NZ

Nikita Zhidkov in Scrapy

Есть такой вариант https://stackoverflow.com/questions/45532265/using-scrapy-linkextractor-with-selenium, но возможно как-то из коробки это можно сделать всё

Stack Overflow

Using scrapy LinkExtractor with Selenium

Is there a way to somehow use selenium to process javascript along with LinkExtractor? I want to crawl websites and pickup pdf files on the pages. Many of the PDFs are only available after javascri...

источник

17:40пожаловаться #10

МС

Михаил Синегубов... in Scrapy

Nikita Zhidkov

Всем привет, хочу добавить селениум в проект, в документации указан этот пакет https://github.com/clemfromspace/scrapy-selenium

Подскажите, пожалуйста, как сделать чтобы LinkExtractor использовал для запросов селениум?

GitHub

clemfromspace/scrapy-selenium

Scrapy middleware to handle javascript pages using selenium - clemfromspace/scrapy-selenium

давай чуть по конкретнее. Тебе надо что бы rules заработали. Или просто через LinkExtractor доставать ссылки?

источник

17:42пожаловаться #11

NZ

Nikita Zhidkov in Scrapy

У меня есть рула
Rule(LinkExtractor(allow=r'.*'), callback='parse_item', follow=True),
т.е мне обойти весь сайт надо, и вот я хочу чтобы в коллбек приходил результат от селениума

источник

17:43пожаловаться #12

NZ

Nikita Zhidkov in Scrapy

Под результатом имею ввиду то, что позволит вытащить динамический контент)

источник

17:44пожаловаться #13

NZ

Nikita Zhidkov in Scrapy

А то я второй день со scrapy, может плохо объясняю свою цель

источник

17:44пожаловаться #14

МС

Михаил Синегубов... in Scrapy

хм, конретно в связке с Rule, похоже, надо пользовать параметр process_request, что бы он реквесты через силениум пропустил.
https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Rule
но это я по документации почитал

источник

17:48пожаловаться #15

МС

Михаил Синегубов... in Scrapy

хм, почитал еще раз. Не уверен на 100% что поможет

источник

17:52пожаловаться #16

NZ

Nikita Zhidkov in Scrapy

" This callable should take said request as first argument and the Response from which the request originated as second argument." очень похоже на то что тогда 2 раза придётся запрос делать

источник

17:52пожаловаться #17

NZ

Nikita Zhidkov in Scrapy

окей, если не через Rule, надо тогда просто руками написать обход того что вернёт LinkExtractor, так получается? Обход имею ввиду послать запросы от селениума

источник

17:53пожаловаться #18

МС

Михаил Синегубов... in Scrapy

Nikita Zhidkov

" This callable should take said request as first argument and the Response from which the request originated as second argument." очень похоже на то что тогда 2 раза придётся запрос делать

def _identity_process_request(request, response):
    return request

с какого перепуга?

источник

17:53пожаловаться #19

МС

Михаил Синегубов... in Scrapy

запрос и респонс, с которого ты создал запрос

источник

17:54пожаловаться #20