Как я понимаю один из вариантов проблемы это поступление большого объема данных в hdfs, где rf=3 вызывает взрыв сетевой активности, или проще говоря засирает сеть, и учитывая, что данные хранятся на iscsi volumes, это может быть причиной значительного замедления hdfs в целом?
это может быть проблемой, а если у вас nodemanager.local-dirs еще там, то и промежуточные итоги у вас пишутся по сети, а потом по сети читаются