Size: a a a

2019 July 17

i

ildar in Scrapy
ну да. я помнится на ляме из csv идентификаторы в set загружал, так там основная проблема в начальной загрузке, а потом все работает мгновенно, но это было так, тяп-ляп интернешнл очень по-быстрому надо было забрать отгрузить и забыть как страшный сон
источник

i

ildar in Scrapy
а тут кто-то вот на монге это сделал: https://blog.dipasquale.fr/en/2018/12/17/incremental-scraping-with-scrapy-and-mongo/
источник

i

ildar in Scrapy
Roman V
Я бы его как есть не юзал, скорее как пример :)
ну эт да, и то и то на сигналах и кода немного, можно посмотреть и запилить свое, если надо. а что лучше для вот этих работ и очередей - celery?
источник

RV

Roman V in Scrapy
Видел, но это какой-то совсем зеленый джун :)
Тащить без крайней нужды в паука работу с базой - за такое нужно от скрапи отлучать :)
источник

i

ildar in Scrapy
да, я код сигналов открыл - а там стандарт, а где логика?
источник

i

ildar in Scrapy
в смысле стандартные функции, а логика в спайдере)
источник

i

ildar in Scrapy
мне просто скоро тоже предстоит, там правда аля CRM-систему, основанную на форуме, надо будет похоже селениумом малость доавтоматизировать, а то слишком много телодвижений вручную над ней у пользователей. И видится мне это как celery, который будет отслеживать  задачки возникающие и автоматом "проводить" по ней.
источник

RV

Roman V in Scrapy
> а что лучше для вот этих работ и очередей - celery?
Celery тяжелый, но для сложных процессов - отлично заходит.
https://docs.celeryproject.org/en/latest/userguide/canvas.html#chains
Вот, например, можно текущий кейс завернуть в чейн тасков:
collect_product_urls -> calculate_delta -> fetch_products
источник

i

ildar in Scrapy
а там что-то вроде ветвления можно сделать?
источник

RV

Roman V in Scrapy
Для простых бэкграундов джобов на питоне я бы смотрел в сторону https://dramatiq.io/
источник

RV

Roman V in Scrapy
Он гораздо проще, предсказуемее и современнее.
источник

i

ildar in Scrapy
аля таска1 - проверка- успех - переходим к таске2 (зависящей от результатов таски1), а если у таски1 неуспех, то попробовать повторить пару раз, а потом написать "я застряла, памахити!"
источник

i

ildar in Scrapy
хмм, современнее если это хорошо
источник

RV

Roman V in Scrapy
да, конечно, можно
источник

i

ildar in Scrapy
чет не слышал даже про него, надо будет поглядеть)
источник

i

ildar in Scrapy
спасибо
источник

RV

Roman V in Scrapy
Но Селери сам по себе достаточно навороченный, его нужно долго "курить"
источник

RV

Roman V in Scrapy
https://dramatiq.io/motivation.html
Создатель хорошо объясняет почему он запилил либу, в чем были проблемы с Селеры и таблица сравнения возможностей.
источник

RV

Roman V in Scrapy
В т.ч. с еще парой "конкурентов":
http://python-rq.org/
https://huey.readthedocs.io/
источник

i

ildar in Scrapy
Cronlike scheduling  No
источник