Телеграмм чат группы scrapy

Если уровня три перехода до целевых итемов - я что то не заметил, чтоб выставление приоритета ускоряло процесс именно их добычи, а не шатания по начальным страницам

источник

23:34пожаловаться #13

Мак in Scrapy

Как можно выставить приоритет именно вертикальных переходов, а не в горизонт?

источник

23:36пожаловаться #14

2020 March 01

ildar in Scrapy

Мак

Как можно выставить приоритет именно вертикальных переходов, а не в горизонт?

чет вспомнился фильм Event Horizon. А если по теме, то вот эта штука: https://docs.scrapy.org/en/latest/topics/settings.html#depth-priority

источник

02:41пожаловаться #15

ildar in Scrapy

и дальше: https://docs.scrapy.org/en/latest/faq.html#faq-bfo-dfo

источник

02:41пожаловаться #16

ildar in Scrapy

если ты надеешься с помощью этой штуки сортировать, то особо не надейся, она просто к примеру для того, чтобы результаты нужные пошли, особенно в связке с DEPTH_LIMIT

источник

02:42пожаловаться #17

🇺L

🇺🇦 Ad Libitum in Scrapy

доброй ночи. начинаю изучать scrapy. поэкспериментировал с докой и getquotes, теперь пытаюсь написать простой спайдер который получает данные со страницы и переходит на следующую. выглядит так:

...
    def parse(self, response):
        for article in response.css('article'):
            item = {
                'title': article.xpath("//h1/text()").extract_first().strip(),
                'categories': article.xpath("//a[@class='tag__link']/text()").extract(),
                'url': response.url,
                'tags': article.xpath("//span[@class='b-singlepost-tags-items']/a/text()").extract(),
            }
            yield item

работает, но когда я запускаю scrapy runspider articles.py -o articles.json он мне пишет в JSON две записи вместо одной, хотя <article> там всего один. Почему так, подскажите, пожалуйста? Спасибо.

источник

04:16пожаловаться #18

Alexey Orloff in Scrapy

Чтобы индексировать страницы и проводить поиск по этим документам, нужно полностью сохранять HTML документ(текст без тегов) в базу данных?

источник

06:22пожаловаться #19

Andrey Rahmatullin in Scrapy

🇺🇦 Ad Libitum

...
    def parse(self, response):
        for article in response.css('article'):
            item = {
                'title': article.xpath("//h1/text()").extract_first().strip(),
                'categories': article.xpath("//a[@class='tag__link']/text()").extract(),
                'url': response.url,
                'tags': article.xpath("//span[@class='b-singlepost-tags-items']/a/text()").extract(),
            }
            yield item

Записи одинаковые?

источник

09:01пожаловаться #20