Size: a a a

2020 November 06

A

Andrii in Scrapy
1. переходи на get(), getall()
2. на f string
3. if next_page_url:
источник

МС

Михаил Синегубов... in Scrapy
ха, там дупфильер по умолчанию, фингерпринт запроса считает с заголовком. А при первом запросе нет referer, при втором он есть. Вот и получается, что запросы разыне
источник

8

85345 in Scrapy
щя протестирую
источник

МС

Михаил Синегубов... in Scrapy
вариантов много, целых два:
1. забить
2. привязаться к class="nfl-o-table-pagination__next"
источник

8

85345 in Scrapy
1. Невариант
2. Привязка к класу не помагает
источник

МС

Михаил Синегубов... in Scrapy
    def parse(self, response, ):
       items = {}
       next_page_url = response.xpath('//a[@class="nfl-o-table-pagination__next"]/@href').get()
       part_href = response.xpath('//a[@class="d3-o-media-object"]/a[@class="d3-o-player-fullname nfl-o-cta--link"]/@href').getall()

       href = []
       for href_str in part_href:
           hr = href.append('https://www.nfl.com%sstats/logs/' % href_str)
           hr2 = 'https://www.nfl.com%sstats/logs/' % href_str
       items['href'] = href
       yield items

       if next_page_url is not None:
           yield scrapy.Request(response.urljoin(next_page_url))
источник

МС

Михаил Синегубов... in Scrapy
на второй странице остановится
источник

A

Anton in Scrapy
Ласт резорт!:) Короче кручу я apschaduler пытаясь запустить паука. Пробовал через CrawlerProcess и только что сделал через CrawlerRunner. Выглядит это так:
def example_runner():
   runner = CrawlerRunner(get_project_settings())
   runner.crawl(IherbSpider)
   #runner.crawl(IeloveSpider)
   #runner.crawl(FudousanSpider)
   d = runner.join()
   d.addBoth(lambda _: reactor.stop())

def main():
   configure_logging()
scheduler = TwistedScheduler()
   scheduler.add_job(example_runner, 'cron',          day_of_week='fri', hour=21, minute=56)
   scheduler.start()
   reactor.run()

if name == '__main__':
   main()

Проблема в том что паук в ручную работает идеально, но вот из внешнего модуля через schadule он не отрабатывает, паук открывается и все - работа сделана, ни статистики ни ошибок. Единственно он дебагом сообщает про s3 типа: "DEBUG: Registering retry handlers for service: s3" перед объявлением конфига pipeline и открытием паука.
Но опять же я сомневаюсь что s3 тут проблема потому что соло паук работает и все складывает туда без проблем.
Если кто то обратит внимание на эту простынь и что то подкинет - буду очень благодарен, ребят!
источник

МС

Михаил Синегубов... in Scrapy
че то я в ахере, шедулер, раннер, реактор...

вопрос - обязательно добавлять через шедулер? руками низзя?
источник

A

Anton in Scrapy
Михаил Синегубов
че то я в ахере, шедулер, раннер, реактор...

вопрос - обязательно добавлять через шедулер? руками низзя?
Так я с радостью!) но на heroku  они так хотят, я там бота типа собираю :)
источник

МС

Михаил Синегубов... in Scrapy
ааа, вон оно че....
https://github.com/ljanyst/scrapy-do

поройся в этом, может поможет
источник

A

Anton in Scrapy
О ништяк, спасибо!)
источник

МС

Михаил Синегубов... in Scrapy
вообще, есть вебморды для скрапи, и API интерфейсы для него
источник

МС

Михаил Синегубов... in Scrapy
я хз можно ли развернуть scrapy-do на хероке
источник

A

Anton in Scrapy
Михаил Синегубов
я хз можно ли развернуть scrapy-do на хероке
Не знаю как скрепи ду, но scrapyd с которого они вдохновлялись - можно!
источник

A

Anton in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
https://pypi.org/project/scrapy-do-heroku/

от такое еще есть
источник

A

Anton in Scrapy
вот я сегодня пока браузил тоже наткнулся
источник

МС

Михаил Синегубов... in Scrapy
для этого есть мануал как на хероку поставить
источник

A

Anton in Scrapy
ну я чувствую так я и реализую одно из них
источник