Size: a a a

2020 November 28

AR

Andrey Rahmatullin in Scrapy
а так, если про логику говорить, что чистейший вариант -  scrapy-inlne-requests и цикл.
источник

D

Dmitry in Scrapy
Понял. Спасибо, почитаю про inline-requests
источник
2020 November 29

S

SoHard 🎄 in Scrapy
Каким таким образом хитрая капча понимает что я её ввожу не вручную?
источник

S

SoHard 🎄 in Scrapy
ввожу в поле селениумом через  send_keys, кликаю кнопочку редирект на 1 страницу. Ввожу руками в селениуме = редир на нужную
источник

E

Evgen in Scrapy
Какая каптча?
источник

E

Evgen in Scrapy
Маус оверы какие нить мож чекает?)
источник

AR

Andrey Rahmatullin in Scrapy
Тоже про движения мышки подумал
источник

AR

Andrey Rahmatullin in Scrapy
што
источник

AL

Alexey Lemeshevski in Scrapy
Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?
источник

К

Кирилл in Scrapy
Alexey Lemeshevski
Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?
В том же
источник

К

Кирилл in Scrapy
Alexey Lemeshevski
Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?
Если там прям что-то супер тяжелое, то лучше вынести за скрапи. Если хочешь треды можешь взять что-то типа twisted.internet.threads.deferToThread()
источник

AR

Andrey Rahmatullin in Scrapy
Alexey Lemeshevski
Гуру Scrapy, подскажите, плиз, pipeline работает в том же процессе (thread), что и spider?

...зачем мне это - у меня часть логики извлечения данных лежит в parse и, нагружает процессор ...пока отрабатывает логика, робот немного простаивает (twisted хоть и асинхронный, но все же не multi-thread, как я понимаю).

Я пытаюсь понять, спасет меня pipeline или лучше тяжелую обработку вообще вырести за пределы scrapy (и от скрапи лишь обход, ссылки и сохранение загруженных страниц, для последующей обработки снаружи)?
deferToThread
источник

AR

Andrey Rahmatullin in Scrapy
А, уже написали
источник

AR

Andrey Rahmatullin in Scrapy
А что там за тяжёлая обработка, на чём сделано?
источник

AL

Alexey Lemeshevski in Scrapy
deferToThread - о, круто) спасибо!!
источник

К

Кирилл in Scrapy
Смотря что у тебя за проблема. Треды обычно для IO bound нужны
источник

AR

Andrey Rahmatullin in Scrapy
И его в пайплайне юзать удобнее чем в колбэке
источник

AL

Alexey Lemeshevski in Scrapy
Andrey Rahmatullin
А что там за тяжёлая обработка, на чём сделано?
lxml и "прогулки" по dom-дереву в поисках нужных данных)
источник

AR

Andrey Rahmatullin in Scrapy
Нууу хз
источник

AR

Andrey Rahmatullin in Scrapy
Но если прям заметно тормозит то ок
источник