Ну мне до этого не приходила в голову идея с curl) однако, там такая тема что некоторые файлы json не так просто получить от сервера, просто по ссылке они не открываются - нужно ему передать правильный хэдер и пэйлоад. Не знаю способен ли curl на такое, почекаю )
не подскажете как CrawlSpider обязать бегать по всему списку allowed_domains и start_urls? Он поверхностно по нескольким доменам пробегает и начинает копать в один вглубь, а хотелось бы чтобы равномерно по всем доменам пробегал...