Телеграмм чат группы scrapy

Size: a a a

Scrapy

684 membersпожаловаться на группу

2020 November 06

Anton in Scrapy

Спасибо!

источник

22:39пожаловаться #1

85345 in Scrapy

Михаил Синегубов

    def parse(self, response, ):
        items = {}
        next_page_url = response.xpath('//a[@class="nfl-o-table-pagination__next"]/@href').get()
        part_href = response.xpath('//a[@class="d3-o-media-object"]/a[@class="d3-o-player-fullname nfl-o-cta--link"]/@href').getall()

        href = []
        for href_str in part_href:
            hr = href.append('https://www.nfl.com%sstats/logs/' % href_str)
            hr2 = 'https://www.nfl.com%sstats/logs/' % href_str
        items['href'] = href
        yield items

        if next_page_url is not None:
            yield scrapy.Request(response.urljoin(next_page_url))

Благодорю, все заработало.
Теперь буду детальнее разбераться с get и getall.
А то по видеоурокам почти всегда юзали extract().
Пошол читать маны

источник

22:41пожаловаться #2

МС

Михаил Синегубов... in Scrapy

extraxt это старые методы, их давно заменили на get/getall
старые оставили пока для обратной совместимости

источник

22:42пожаловаться #3

МС

Михаил Синегубов... in Scrapy

юзать можно, но, не желательно

источник

22:42пожаловаться #4

85345 in Scrapy

Понял

источник

22:43пожаловаться #5

Andrey Rahmatullin in Scrapy

просто уроки старые

источник

22:46пожаловаться #6

i in Scrapy

Интересно, надо будет глянуть: https://twitter.com/ScrapyProject/status/1324743469840146432?s=19

Twitter

Scrapy

Mark November 10th in your calendar! During @ExtractSummit, Mikhail Korobov, core Scrapy contributor and Head of Development at @ScrapingHub, will be discussing hidden Scrapy features that you *need* to know. Check out the whole event agenda at https://t.co/XYBHJjyImp

источник

23:12пожаловаться #7

Roma in Scrapy

Интересно, надо будет глянуть: https://twitter.com/ScrapyProject/status/1324743469840146432?s=19

Twitter

Scrapy

Не вижу нигде - онлайн саммит?

источник

23:29пожаловаться #8

Andrey Rahmatullin in Scrapy

да

источник

23:29пожаловаться #9

Andrey Rahmatullin in Scrapy

https://www.extractsummit.io/

Web Data Extraction Summit

Join the greatest minds in data extraction & web scraping to educate, inspire and innovate. Hear best practice tips from experts & discover the future of data extraction.

источник

23:29пожаловаться #10

Roma in Scrapy

Спасибо! оч интересно

источник

23:33пожаловаться #11

2020 November 07

andriiko489 in Scrapy

Знает кто-то как решить эту проблему?

источник

00:06пожаловаться #12

Andrii in Scrapy

andriiko489

Знает кто-то как решить эту проблему?

Установить c++ build tools

источник

00:21пожаловаться #13

andriiko489 in Scrapy

Andrii

Установить c++ build tools

Спасибо, буду пробовать

источник

00:28пожаловаться #14

i in Scrapy

andriiko489

Знает кто-то как решить эту проблему?

ты можешь поставить скрапи через анаконду-миниконду, он там подтянет прекомпиленный wheel твистеда, ну можно build tools да, если 2-5 гигов не жалко)

источник

08:42пожаловаться #15

ПА

Павел Асеев... in Scrapy

Привет, подскажите пожалуйста, а как вытащить все ссылки из sitemap. Т.е. не переходить по ним и парсить, просто выгрузить в CSV все ссылки. Паук выглядит так https://prnt.sc/vf0qli а что прописать в parse не понимаю.

Lightshot

Screenshot

Captured with Lightshot

источник

09:12пожаловаться #16

ПА

Павел Асеев... in Scrapy

Внутри главной карты сайта находятся более 3000 мелких и в каждой уже лежат ссылки на товары. Вот эти ссылки мне и нужны. Вот пример карты сайта уже с ссылками на товары https://www.digikey.com/en/product-detail/submap/sitemap1.xml

источник

09:15пожаловаться #17

SoHard 🎄 in Scrapy

Павел Асеев

Lightshot

Screenshot

Captured with Lightshot

как и с обычной страницы

источник

09:24пожаловаться #18

SoHard 🎄 in Scrapy

xpath для xml был и придуман