паршиво то, что каждый расчёт — это деплой кластера в EMR. потому как каждый раз свой набор датасетов и подбор памяти/CPU, и невозможно сделать вменяемый перманентный под весь набор расчётов. ну и гонять всё время данные с s3 туда-сюда.
будь своё железо, загнал бы разворот в кубер с нужной нарезкой, а так большую часть времени ждём, пока оно развернётся, заберёт из s3, и так далее :(