Там всё достаточно просто Спарк с кубером в оф доке или просто гуглить рецепты S3 почитать про s3-select, посмотреть на alluxio Метастор в зависимости от облака, glue data catalog или hive metastore или еще чего
ни слова про объемы даты / траффик / к-во юзеров этой клауд нэйтив-кост эффектив. в реальности это все поднять под траффик существенный - работы на год для команды человек 5
🤔 пост - самореклама, но в целом как arch overview вполне сойдет