Size: a a a

2020 March 23

К

Кирилл in Scrapy
байты vs строка
источник

B

Bulatbulat48 in Scrapy
когда скрапи был на втором питоне .body по дефолту был, потом добавили .text
источник

AR

Andrey Rahmatullin in Scrapy
body_as_unicode() ещё был
источник

A

Andrii in Scrapy
Ну джейсончик я через body делаю, думаю не особо плохо
источник

A

Andrii in Scrapy
Правда с спецсимволами меня уже достало ((
источник

К

Кирилл in Scrapy
как тебе удобнее так и делай
источник

СТ

Семён Трояновский in Scrapy
Всем спасибо кто отписался ) у меня Линукс ) в плане планировщика я смотрел на scrapy-do, гляну cron )
источник

AR

Andrey Rahmatullin in Scrapy
зачем scrapy-do без scrapy
источник

СТ

Семён Трояновский in Scrapy
Ну мне до этого не приходила в голову идея с curl) однако, там такая тема что некоторые файлы json не так просто получить от сервера, просто по ссылке они не открываются - нужно ему передать правильный хэдер и пэйлоад. Не знаю способен ли curl на такое, почекаю )
источник

AR

Andrey Rahmatullin in Scrapy
способен  конечно
источник

AR

Andrey Rahmatullin in Scrapy
он почти всё умеет
источник

AR

Andrey Rahmatullin in Scrapy
в браузере даже можно сделать copy as curl и убрать лишнее
источник

СТ

Семён Трояновский in Scrapy
Спасибо за совет )
источник

A

Andrii in Scrapy
Вопрос по reddit'y. Есть их json. Как мне сделать итеррацию по постах?
json['posts'][????]
источник

A

Andrii in Scrapy
источник

К

Кирилл in Scrapy
for key, value in json['posts'].items():
источник

AR

Andrey Rahmatullin in Scrapy
Andrii
Вопрос по reddit'y. Есть их json. Как мне сделать итеррацию по постах?
json['posts'][????]
это всего лишь вложенные словари и списки, базовые питоньи штуки
источник

A

Andrii in Scrapy
Кирилл
for key, value in json['posts'].items():
очень спасибо!
источник

РТ

Ренат Турсунбаев in Scrapy
не подскажете как CrawlSpider обязать бегать по всему списку allowed_domains и start_urls? Он поверхностно по нескольким доменам пробегает и начинает копать в один вглубь, а хотелось бы чтобы равномерно по всем доменам пробегал...
источник

К

Кирилл in Scrapy
вроде предполагается, что один паук == один домен
источник