Я сделал примерно так: при старте сервера все нужные экстракторы создаём в одном экземпляре (я использую наташу), потом запускаем сам сервер с rest api (например, на базе flask). Это всё заворачиваем в докер и дальше тестируем
У меня вышло примерно 150-200RPS с временем ответа до 0.17 сек на intel xeon каком-то, модель не знаю)
А дальше просто поднимаем нужное количество контейнеров и вешаем балансировщик нагрузки на nginx)
а делать один flask на ядро CPU , и верхнеуровнево какой-нибудь wsgi многопроцессный для них?
или там внутри бывают ситуации, когда не на CPU нагрузка во время обработки запроса? не должно быть же такого? баз нет, только память и процессор задействованы