Телеграмм чат группы scrapy

Size: a a a

Scrapy

684 membersпожаловаться на группу

2020 November 06

Andrii in Scrapy

1. переходи на get(), getall()
2. на f string
3. if next_page_url:

источник

22:00пожаловаться #1

МС

Михаил Синегубов... in Scrapy

ха, там дупфильер по умолчанию, фингерпринт запроса считает с заголовком. А при первом запросе нет referer, при втором он есть. Вот и получается, что запросы разыне

источник

22:07пожаловаться #2

85345 in Scrapy

щя протестирую

источник

22:08пожаловаться #3

МС

Михаил Синегубов... in Scrapy

вариантов много, целых два:
1. забить
2. привязаться к class="nfl-o-table-pagination__next"

источник

22:08пожаловаться #4

85345 in Scrapy

1. Невариант
2. Привязка к класу не помагает

источник

22:15пожаловаться #5

МС

Михаил Синегубов... in Scrapy

    def parse(self, response, ):
        items = {}
        next_page_url = response.xpath('//a[@class="nfl-o-table-pagination__next"]/@href').get()
        part_href = response.xpath('//a[@class="d3-o-media-object"]/a[@class="d3-o-player-fullname nfl-o-cta--link"]/@href').getall()

        href = []
        for href_str in part_href:
            hr = href.append('https://www.nfl.com%sstats/logs/' % href_str)
            hr2 = 'https://www.nfl.com%sstats/logs/' % href_str
        items['href'] = href
        yield items

        if next_page_url is not None:
            yield scrapy.Request(response.urljoin(next_page_url))

источник

22:27пожаловаться #6

МС

Михаил Синегубов... in Scrapy

на второй странице остановится

источник

22:27пожаловаться #7

Anton in Scrapy

Ласт резорт!:) Короче кручу я apschaduler пытаясь запустить паука. Пробовал через CrawlerProcess и только что сделал через CrawlerRunner. Выглядит это так:

def example_runner():
    runner = CrawlerRunner(get_project_settings())
    runner.crawl(IherbSpider)
    #runner.crawl(IeloveSpider)
    #runner.crawl(FudousanSpider)
    d = runner.join()
    d.addBoth(lambda _: reactor.stop())

def main():
    configure_logging()
scheduler = TwistedScheduler()
    scheduler.add_job(example_runner, 'cron',          day_of_week='fri', hour=21, minute=56)
    scheduler.start()
    reactor.run()

if name == '__main__':
    main()

Проблема в том что паук в ручную работает идеально, но вот из внешнего модуля через schadule он не отрабатывает, паук открывается и все - работа сделана, ни статистики ни ошибок. Единственно он дебагом сообщает про s3 типа: "DEBUG: Registering retry handlers for service: s3" перед объявлением конфига pipeline и открытием паука.
Но опять же я сомневаюсь что s3 тут проблема потому что соло паук работает и все складывает туда без проблем.
Если кто то обратит внимание на эту простынь и что то подкинет - буду очень благодарен, ребят!

источник

22:27пожаловаться #8

МС

Михаил Синегубов... in Scrapy

че то я в ахере, шедулер, раннер, реактор...

вопрос - обязательно добавлять через шедулер? руками низзя?

источник

22:29пожаловаться #9

Anton in Scrapy

Михаил Синегубов

че то я в ахере, шедулер, раннер, реактор...

вопрос - обязательно добавлять через шедулер? руками низзя?

Так я с радостью!) но на heroku они так хотят, я там бота типа собираю :)

источник