Size: a a a

2021 April 08

E

Evgen in Scrapy
В методах реквеста и респонса
источник

E

Evgen in Scrapy
А дальше надо в спайдере добавить init и в нем устанавливать рюпараметр в зависимости от аргумента старта
источник

E

Evgen in Scrapy
Аргументы передаются scrapy crawl spider -a key=value
источник

E

Evgen in Scrapy
Либо update_settings опять жк
источник

A

Alex in Scrapy
Вижу, тут часто упоминается Parsel. А чем он принципиально лучше lxml?
источник

S

SoHard 🎄 in Scrapy
С чего бы его не упоминать если это часть скрапи
источник

МС

Михаил Синегубов... in Scrapy
XPath selectors based on lxml
источник

МС

Михаил Синегубов... in Scrapy
принципиально - ни чем
источник

МС

Михаил Синегубов... in Scrapy
хотя, я не юзал   на прямую lxml
источник

A

Alex in Scrapy
Но он же может и автономно использоваться, если я все правильно понял из репы на гх.
источник

S

SoHard 🎄 in Scrapy
Может
источник

A

Alex in Scrapy
Ага, понял, спасибо
источник

МС

Михаил Синегубов... in Scrapy
угу, он давно выделен в отдельную репу, так же как ItemLoader

кстати, он может и по удобнее чем чистый lxml. Но, на вкус и цвет фломастеры разные + я не уверен что он на самом деле удобнее, ибо уже писал, что не сравнивал.

Вот с БС разница есть, именно по скорости
источник

S

SoHard 🎄 in Scrapy
БС тоже через lxml может работать
источник

МС

Михаил Синегубов... in Scrapy
ну, хз. Я пока не видел, что бы он был шустрее или на уровне парселя. Может не так смотрел
источник

A

Alex in Scrapy
БС - это вообще отдельная тема. Не особо понимаю, зачем он при наличии lxml. И при этом может использовать под капотом в качестве альтернативного парсера lxml, но xpath не использует вообще. Для себя БС я считаю лишней прослойкой для lxml. Возможно, БС больше зайдет любителям jQuery, хз...
источник

AR

Andrey Rahmatullin in Scrapy
У lxml довольно дубовый апи, в парсел можно просто строку передать не создавая всяких там деревьев
источник

AR

Andrey Rahmatullin in Scrapy
Ну и я никогда не юзал lxml не глядя в доку
источник

A

Alex in Scrapy
Деревья, в смысле, etree? Это нужно, если предполагается еще и создание элементов в DOM, а в частности для xml. А так можно тоже передать строку. Плюс lxml тоже умеет работать с невалидным html, чем так особенно славится BS.
источник

AR

Andrey Rahmatullin in Scrapy
а, ну вроде можно
источник