Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
Почитай. Там под капотом S3 хранилище. Сразу понятно, что hadoop нет. Значит Спарк запускается не на yarn. На чем - вопрос. Mesos?