U
На каждое приложение создаётся execute-метод, чтобы батчить запросы.
Запросы гонятся через пачку тор-проксей(один токен-один инстанс тор), чтоб не триггернуть лимит по ip. Докер отлично справляется с развёртыванием.
Бо́льшая проблема — запись данных. Блобы в монге работают, но как промежуточный сторадж, а вот сразу в индексированную бд класть не удастся, если достаточно быстро качать. Несколько лет назаж укладывал в mysql через именованный пайп и load data infile, там получалось до полумиллиона строк в секунду, но это был отдельный процесс, который выступал как ETL между хранилищем сырых данных, а не было записью напрямую.