Size: a a a

2021 May 19

AR

Andrey Rahmatullin in Scrapy
и что такое циклический запуск
источник

МС

Михаил Синегубов... in Scrapy
я тебе уже сказал, что сделать надо
источник

Y

Yurii in Scrapy
Как автоматически перезапускать пауков по завершении их работы
источник

A

Andrii in Scrapy
Сразу же?
источник

AR

Andrey Rahmatullin in Scrapy
взять нормальный менеджер процессов, их много
источник

Y

Yurii in Scrapy
да
источник

AR

Andrey Rahmatullin in Scrapy
или переделать архитектуру паука
источник

AR

Andrey Rahmatullin in Scrapy
или сунуть process.run в цикл, ага, только всё равно на этот скрипт нужен будет нормальный менеджер процессов
источник

Y

Yurii in Scrapy
такое не работает
источник

AR

Andrey Rahmatullin in Scrapy
да, но идея та же
источник

AR

Andrey Rahmatullin in Scrapy
просто реактор не останавливать
источник

AR

Andrey Rahmatullin in Scrapy
но лучше так не делать конечно, т.к. см. выше
источник

(

(o_O) in Scrapy
bash:
while true; do scrapy crawl spidername; done;
источник

AR

Andrey Rahmatullin in Scrapy
ага
источник

AR

Andrey Rahmatullin in Scrapy
к этом скрипту конечно тоже желательно нормальный менеджер процессов в свою очередь, но и без него будет нормально
источник

(

(o_O) in Scrapy
Я за простые решения, пока можно без сложностей
источник

H

Harsh in Scrapy
Hello, I'm are scraping a site that have data in script tag.

The json payload is mixed with some trailing and leading JavaScript code. I can't use json.loads() on unclean / invalid json string.

Is there any library that removes the JS code and give valid string?

If someone have encountered similar case, your insights maybe helpful. Thanks
источник

G

Georgiy in Scrapy
источник

H

Harsh in Scrapy
Thanks Georgiy. I'll check it out. Seems this is what I'm looking for. :)
источник

AR

Andrey Rahmatullin in Scrapy
Or in simple cases you can just cut it with a regex
источник