Телеграмм чат группы scrapy

Привет!
не получается в CrawlSpider =(
рул почему-то не отрабатывает. могу код сбросить

21:41пожаловаться #1

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class SmartphoneSpiderSpider(CrawlSpider):
    name = 'smartphone_spider'
    allowed_domains = ['hotline.ua']
    start_urls = ['https://hotline.ua/mobile/mobilnye-telefony-i-smartfony/']

    rules = (
        Rule(LinkExtractor(restrict_xpaths='//li[@class="product-item"]/div[@class="item-info"]/p[@class="h4"]/a'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print('---')
        card_title = response.css('.card-title::text').get()
        yield { card_title }

    def parse(self, response):
        pass
        # product_items = response.css('.product-item .item-info a::attr(href)').getall()
        # for product in product_items:
        #     yield { product: product }

        # next_page = int(response.css('.pages.active::text').get()) + 1
        # last_page= int(response.css('a.pages::text').getall()[-1])
        # print('!!!!!', next_page)
        # print('!!!!!', last_page)
        # if next_page <= last_page:
        #     absolute_next_page_url = response.urljoin('?p=' + str(next_page))
        #     yield scrapy.Request(absolute_next_page_url)

21:41пожаловаться #2

при чём я по xpath в браузере нахожу что нужно:

21:41пожаловаться #3

21:42пожаловаться #4

Привет!
не получается в CrawlSpider =(
рул почему-то не отрабатывает. могу код сбросить

в консоли пробоавл его вызвать и посмотреть, что за линки он собирает?

21:44пожаловаться #5

в консоли пробоавл его вызвать и посмотреть, что за линки он собирает?

сорри, я только что методом тыка проблему нашёл - у кравл спайдеров по идее не должно быть parse метода =)
буквально сейчас нашёл
----
в консоль не выводило ничего)

21:45пожаловаться #6

там дебажить можно . скрапи шел урл и потом в консоли линк екстратор вызвать.
можно пдб так же пораставлять и подебажить.
но раз рабоатет, то ок

21:47пожаловаться #7

не знал, а как дебажить то? что почитать про это?

21:47пожаловаться #8

https://docs.scrapy.org/en/latest/topics/debug.html

не знал, а как дебажить то? что почитать про это?

21:48пожаловаться #9

import pdb; pdb.set_trace() вставляй в нужные места и запускай, как вариант

21:48пожаловаться #10

import pdb; pdb.set_trace() вставляй в нужные места и запускай, как вариант

спасибо) пайтон и скрапи пару раз в год юзаю) до следующего раза забуд =)

21:49пожаловаться #11

но а вообще scrapy shell https://hotline.ua/
а потмо в терминале запускай линкекстратор или делай, что хочешь

21:50пожаловаться #12

но а вообще scrapy shell https://hotline.ua/
а потмо в терминале запускай линкекстратор или делай, что хочешь

понял, да я в принципе так придрочился, в консольке хрома по началу

21:50пожаловаться #13

к стати, это норм что я не пользуюсь хедлес браузером поверх скрапи?

21:51пожаловаться #14

Кирилл in Scrapy

ещё как вариант использовать дебагер из IDE если ты ей пользуешься
или подключиться к https://doc.scrapy.org/en/latest/topics/telnetconsole.html

21:51пожаловаться #15

Кирилл in Scrapy

к стати, это норм что я не пользуюсь хедлес браузером поверх скрапи?

90% случаев он не нужен

21:52пожаловаться #16

Кирилл

90% случаев он не нужен

понял, спасиб

21:52пожаловаться #17

Кирилл in Scrapy

Если ты уже получаешь данные, своим парсером, то точно не нужен)

21:52пожаловаться #18

к стати, это норм что я не пользуюсь хедлес браузером поверх скрапи?

его и не надо использовать

21:53пожаловаться #19

Yurii in Scrapy

Пока народ активный
Напомните пожалуйста. Слышал что item ошибку отсутствия пути в поиске обрабатывает.
При таком написании в пауке ошибки не будет?
item['image_url'] = response.css('#screenshot-image::attr(src)').get()