Телеграмм чат группы scrapy

Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?

источник

15:50пожаловаться #9

К

Кирилл in Scrapy

Alexey Lemeshevski

Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?

В том же

источник

16:01пожаловаться #10

К

Кирилл in Scrapy

Alexey Lemeshevski

Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?

Если там прям что-то супер тяжелое, то лучше вынести за скрапи. Если хочешь треды можешь взять что-то типа twisted.internet.threads.deferToThread()

источник

16:06пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

Alexey Lemeshevski

Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?

deferToThread

источник

16:07пожаловаться #12

AR

Andrey Rahmatullin in Scrapy

А, уже написали

источник

16:07пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

А что там за тяжёлая обработка, на чём сделано?

источник