Телеграмм чат группы scrapy

Как правильнее реализовать с точки зрения архитектуры? У меня есть две функции parse
def parse(self, response):
.....
yield scrapy.Request(details_link, callback=self.details, cb_kwargs=dict(item=item.copy()))
def details(self, response, item):
yield item
Мне нужно минимизировать число обращений к сайту. Чтобы если объект есть в Mysql базе и он не изменился(это можно понять в первой функции parse), то итем дропается. Если изменился то проваливается глубже и возвращает весь итем. Причем если изменилась только цена, то первой функции тоже вполне достаточно, чтобы обновить объект в базе. У меня настроен pipeline на сохранение в базу. Как то можно ему дополнительные параметры передать, чтобы в зависимости от них обновить объект частично, полностью, создать новый или ничего не делать?

источник

11:31пожаловаться #12

Илья in Scrapy

Как обновить объект полностью и создать новый это я разобрался, можно не выходя из pipeline. А вот как остановить паука на середине и не дать провалиться, вот это я разобраться не могу.

источник

11:33пожаловаться #13

Andrey Rahmatullin in Scrapy

нет, логику придётся совать в коллбэк, потому что пайплайны получают уже итемы, а у тебя логика должна разные итемы отдавать

источник

11:33пожаловаться #14

Andrey Rahmatullin in Scrapy

ну либо написать страшную логику на мидлварях, которая получает итем, смотрит в базу, и генерит реквест если надо, вроде так можно

источник

11:33пожаловаться #15

Andrey Rahmatullin in Scrapy

ну и тормозить будет конечно, если синхронно в базу ходить

источник

11:34пожаловаться #16

Илья in Scrapy

А если передавать в качестве поля итема параметр?

источник

11:35пожаловаться #17

Andrey Rahmatullin in Scrapy

не понимаю о чём речь, но как это поможет с тем что реквест то ли надо делать, то ли не надо?

источник

11:36пожаловаться #18

Илья in Scrapy

В первой функции сделать запрос к базе, проверить изменились ли поля. добавить в итем параметр. Если нужно провалиться глубже, если нет, то yield item

источник

11:37пожаловаться #19

i in Scrapy

может попробовать просто чекать именно в parse на наличие в базе. если есть, не проваливаешься вглубь, если нет - проваливаешься. делаешь это if'ом. Вангую тормоза будут в пределе на 20-50%. Вопрос только про то, что могут возникать нехорошие штуки с базой при одновременной записи. По-идее если ты будешь именно внутри parse открывать и закрывать транзакцию, то взлетит. Ну так костыльненько конечно.

источник

11:37пожаловаться #20