Телеграмм чат группы scrapy

Size: a a a

Scrapy

2020 October 20

МС

а сами параметры, которые отдаются в конце - поиск по коду. Кстати, там же и глянешь в какой момент стата выскакивает :)

источник

22:26пожаловаться #1

Sergey Sergey in Scrapy

Михаил Синегубов

https://docs.scrapy.org/en/latest/topics/stats.html

начни с этого, только не помню откуда плясать надо, то ли при закрытии паука, то ли когда у пауканет данных (close_spider vs sider_idle). В каком то из них, вроде как, статы уже нет

да, это читал. Но реально мозгов не хватает применить. А примеров нормальных не нашел

источник

22:26пожаловаться #2

МС

Михаил Синегубов... in Scrapy

ща вдарю

источник

22:27пожаловаться #3

МС

Михаил Синегубов... in Scrapy

items = self.stats.get_value('item_scraped_count', 0)

источник

22:31пожаловаться #4

МС

Михаил Синегубов... in Scrapy

кстати, там же по ссылке:
Get all stats:

stats.get_stats()
{'custom_count': 1, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}

ЛГ

ЛГ

image_2020-10-20_22-33-32.png

(18.82 Кб)

кто-то забыл про слипы

источник

22:33пожаловаться #7

Sergey Sergey in Scrapy

Михаил Синегубов

items = self.stats.get_value('item_scraped_count', 0)

это прямо в спайдере писать или в пайплайне по сигналу spider_closed, например?

источник

22:47пожаловаться #8

Sergey Sergey in Scrapy

Михаил Синегубов

кстати, там же по ссылке:
Get all stats:

stats.get_stats()
{'custom_count': 1, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}

вроде понял. Я прям в спайдере могу spider_closed написать и оттуда статы получить) Ща попробую)

источник

22:50пожаловаться #9

ЛГ

Лев Гареев in Scrapy

И так, снова я с тупым вопросом, мне уже подсказали, что проблема точн ов друх реквестах

источник

23:04пожаловаться #10

ЛГ

Лев Гареев in Scrapy

Переслано от Лев Гареев

у меня есть

источник

23:05пожаловаться #11

ЛГ

Лев Гареев in Scrapy

Переслано от Лев Гареев

 next_page = response.xpath('//div[@class="pagination span12"]//li[last()]/a/@href').extract_first()
        if next_page:
            yield scrapy.Request(
                response.urljoin(next_page),
                callback=self.parse
            )

источник

23:05пожаловаться #12

ЛГ

Лев Гареев in Scrapy

Переслано от Лев Гареев

 import scrapy
import time
import json


class RapserSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ['de.bizin.eu']
    start_urls = ['https://de.bizin.eu/rus/cat/oborudovanie#.X474I9AzaUl']

    def parse(self, response):
        # Give data of css
        product_url = response.xpath('//a[@itemprop="name"]/@href').extract()
        full_product_url = []
        for url in product_url:
            full_product_url.append("https://de.bizin.eu" + url)
        for i in range(len(full_product_url)):
            yield scrapy.Request(full_product_url[i], callback=self.price_parse,
                                 meta={'product_url': full_product_url[i]})
        next_page = response.xpath('//div[@class="pagination span12"]//li[last()]/a/@href').extract_first()
        if next_page:
            yield scrapy.Request(
                response.urljoin(next_page),
                callback=self.parse
            )

    def price_parse(self, response):
        data = json.loads(response.xpath('//script[@type="application/ld+json"]/text()').get())
        price = data['email']
        scrap_info = {
            'product_url': response.meta['product_url'],
            'price': price
        }
#        time.sleep(2)
        return scrap_info