> Но из MapReduce много производительности не выжмешь, потому что маппер читает данные из HDFS и записывает их обратно, а следущий в цепочке редюсер делает то же самое, и так пока все шаги не закончатся.
нет-нет-нет в каждой статье про hadoop одна и таже ошибка
мэпер пишет на локальный диск а редьюсер стучится в tasktracker и запрашивает данные, количество тредов на отдачу настраивается
спарк работает точно так же, записали на диск и poll со стороны следующего шага вот только сейчас подумывают выгружать вывод мепера в какой distributed storage
> Но из MapReduce много производительности не выжмешь, потому что маппер читает данные из HDFS и записывает их обратно, а следущий в цепочке редюсер делает то же самое, и так пока все шаги не закончатся.
нет-нет-нет в каждой статье про hadoop одна и таже ошибка
мэпер пишет на локальный диск а редьюсер стучится в tasktracker и запрашивает данные, количество тредов на отдачу настраивается
спарк работает точно так же, записали на диск и poll со стороны следующего шага вот только сейчас подумывают выгружать вывод мепера в какой distributed storage