бывает просто, что, например, кх из 10 раз 1 раз валится на записи. и надо перекореживать заново килотонны данных, чтобы перезаписать их в айсберг, куда они еще в прошлый раз норм заехали.
мы наваливаем сырье в hdfs, потом его следующий джоб разбирает по схеме, пуляет задания всем страждущим новой порции, а потом уже всякие разные джобы это берут и перекладывают/модифицируют/считают так как им надо и тогда когда оно им надо.