AS
когда у вас доступ к s3 то вы ограничены скоростью сети + количеством коннектов на сам s3
когда вы скопировали данные на hdfs то высока вероятность гонять/процессить данные в data locality режиме (считайте напрямую с диском работа)
долгосрочное хранение это одно
временное хранилище для файлов которые будут прочитаны много раз это совершенно другое