Телеграмм чат группы scrapy

Size: a a a

Scrapy

861 membersпожаловаться на группу

2021 May 24

Stanislav in Scrapy

брал ну скажем так брал страницы наугад те которые не пропарсились и проверял селекторы

источник

11:30пожаловаться #1

Stanislav in Scrapy

Правило одно для всех страниц Rule(LinkExtractor(allow=('k-',)), callback='parse_product'),
)

def parse_product(self, response):

источник

11:32пожаловаться #2

(

(o_O) in Scrapy

Скрапи страницы скачал, а парсер (user code) его не разбирает (видимо).

scrapy shell http://...

spider.parse_product(response)

работает?

источник

11:33пожаловаться #3

Andrey Rahmatullin in Scrapy

Традиционно предлагаю выкинуть CrawlSpider, когда такие вопросы

источник

11:34пожаловаться #4

(

(o_O) in Scrapy

Ай, а ведь удобная вещь

источник

11:35пожаловаться #5

Andrey Rahmatullin in Scrapy

Когда понимаешь как она работает

источник

11:35пожаловаться #6

Andrey Rahmatullin in Scrapy

Или хотя бы когда не надо колбэки писать :))

источник

11:35пожаловаться #7

Stanislav in Scrapy

вот я и пытаюсь разобраться что не так

источник

11:41пожаловаться #8

(

(o_O) in Scrapy

Ну так вызов метода spider.parse_product(response) в шелле результат дает?

источник

11:43пожаловаться #9

(

(o_O) in Scrapy

А где правило для пагинации?

источник

11:44пожаловаться #10

Stanislav in Scrapy

ща, не все так быстро. я сегодня как Юлий Цезарь 10 дел одновременно и все сыпется из рук.

источник

11:45пожаловаться #11

(

(o_O) in Scrapy

И вот это allow=('k-',) весьма широко

источник

11:46пожаловаться #12

(

(o_O) in Scrapy

По сути должно быть два правила - одно для перехода по страницам каталога, второе для разбора страниц продуктов

источник

11:47пожаловаться #13

(

(o_O) in Scrapy

Типа

rules = [
    Rule(LinkExtractor(r'\?page=')),
    Rule(LinkExtractor(r'/goods/'), 'parse_product'),
]

источник

11:50пожаловаться #14

Stanislav in Scrapy

>>> spider.parse_product(response)
<generator object MetalloprokatSpider.parse_product at 0x0000007EFC4B4270>

источник

12:05пожаловаться #15

(

(o_O) in Scrapy

Ну а развернуть генератор? list(spider.parse_product(response))

источник

12:06пожаловаться #16

Stanislav in Scrapy

я хотел только пройтись по страницам каталога не проваливаясь в страницы продуктов.

источник

12:06пожаловаться #17

(

(o_O) in Scrapy

а ок

источник

12:07пожаловаться #18

Stanislav in Scrapy

а вот тут я похоже не правильно понимаю работу CrawlSpider. Я думал что он видя правило сам "волшебно феерическим образом" пережевывает сайт и собирает все ссылки попадающие под это правило и тальше включается процедура из callback='parse_product для разбора этих страниц .

источник

12:09пожаловаться #19

(

(o_O) in Scrapy

Волшебства нет. LinkExtractor извлекает ссылки согласно параметрам, а Rule следует по ним, вызывая callback, если задан

источник

12:12пожаловаться #20