Уважаемые коллеги! Я развернул кластер HDFS для хранения и дальнейшей обработки HTML файлов через mapred streeming. Так как файлов очень много, а к тому же html формат хорошо сжимается, я попытался каждый каталог сжать в один файл, для эффективного использования занятого пространства, использовал формат lzo. Но возникла проблема! После сжатия, я уже не смог корректно обрабатывать html в стриминг mapred, потому что после распаковки данные теряются либо перемешиваются и в итоге <html>*</html> страница получается битая. Подскажите пожалуйста как правильно работать с компрессией в HDFS?