Телеграмм чат группы scrapy

curl -k 'https://yweb.ymcaboston.org/SpiritWeb/SearchClass' -H 'Content-Type: application/x-www-form-urlencoded' -H 'User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.17 Safari/537.36' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' -H 'Referer: https://yweb.ymcaboston.org/SpiritWeb/SearchClass' --data '_EXECEVENT=ONSEARCH&BRANCH_IDENTIFIER=&SELECT_AGE=&PPG_PROGRAM_IDENTIFIER=&POF_CLASS_IDENTIFIER=&_BRIEF_DESC=&SELECT_MONTH=&_CLASS_OFFERING_IDENTIFIER=&SORTBY=AGE' --compressed

блин, и правда ж работает!

источник

16:46пожаловаться #4

Мак in Scrapy

парни, посоветуйте как правильнее обыграть такой момент: с помощью сплеша заходим на страницу - там получает токен. с присутствием этого токена можем сделать запрос уже без сплеша несколько раз, для получения конечной информации. потом токен блочится и надо опять через сплеш заходить и получать новый токен. в общем на несколько обычных запросов необходимо заходить один раз сплешем на другую страницу и получать новый токен.

источник

16:51пожаловаться #5

Мак in Scrapy

тут как раз инлайн реквесты помогли бы, но дело в том, что там цепочка запросов сплешем нужна, на несколько адресов

источник

16:52пожаловаться #6

МС

Михаил Синегубов in Scrapy

тебе прям серьезное решение, или накостылить?
если более/менее серьезное, мое мнение, смотреть в сторону мидлварей.
взять за основу что-то вроде
https://github.com/TeamHG-Memex/scrapy-rotating-proxies
и препилить под себя

хотя тут то-же вопрос. У тебя на момент бана ведь уже есть 100500 реквестов в очереди, с протухшим токеном...

источник

16:59пожаловаться #7

Alexander B in Scrapy

возвращаясь к inline_requests, чет не робит(

источник

17:02пожаловаться #8

Alexander B in Scrapy

response - не респонс, а реквест(

источник

17:03пожаловаться #9

Alexander B in Scrapy

а наверное проблема там где вызываю..

источник

17:05пожаловаться #10

МС

Михаил Синегубов in Scrapy

стоп, а нахрена scrapy.http.Request?
разве не scrapy.Request должно быть?

источник

17:06пожаловаться #11

Alexander B in Scrapy

в примерах так

источник

17:07пожаловаться #12

МС

Михаил Синегубов in Scrapy

om inline_requests import inline_requests
from scrapy import Spider, Request

class MySpider(Spider):
    name = 'myspider'
    start_urls = ['http://httpbin.org/html']

    @inline_requests
    def parse(self, response):
        urls = [response.url]
        for i in range(10):
            next_url = response.urljoin('?page=%d' % i)
            try:
                next_resp = yield Request(next_url)
                urls.append(next_resp.url)
            except Exception:
                self.logger.info("Failed request %s", i, exc_info=True)

        yield {'urls': urls}