Для самых простых кейсов - тоже рекомендую решение на базе scrapy-plugins/scrapy-deltafetch В промышленных масшатабах - разбивать на несколько этапов, строить чейны джобов с помощью того же Celery.
ещё я пока толком не разобрался со всеми этими мидлварями, оно всё увлекательно, но до конца я не разобрался, что иммено какая прослойка делает, и как какие-то свои кейсы реализовать через них, мне пока сложно придумать.
70К - это немного и если важна скорость - можно просто по spider_opened загружать все идентификаторы в сет, тогда дубликаты будут отфильтровываться молниеносно. Универсального решения нет, нужно смотреть по конкретному кейсу.
спасибо парни за дельные советы и пищу для размышлений. вообще уютно тут у вас, в каком-нибудь ява чатике меня бы уже давно нахуй послали и по айпи забанили бы.