Привет всем,
Кто-то работал плотно со spark на AWS EMR?
Изучаю производительность, и есть интересное наблюдение, один и тот же запрос на локальном Спарке (master(“local[*]”) и данными в NFS отрабатывает гораздо быстрее, чем Спарк с данными в S3.
При этом Athena быстрее, но все равно latency в секундах, а не ms, как пишут.
Тут есть очень много вводных, но в целом, данные небольшие(мегабайты), и если все хранить в одном файле, то получается быстрее, но всё равно не топ:
Local Spark - 4 seconds
AWS EMR - 20 seconds
AWS HDFS - 11 seconds