Я бы посоветовал смотреть выступления на конференциях, читать рассылки и блоги; книжки где было бы рассказано что и как делать если у вас Х петабайт данных я не видел
Проблема использования хадупа там где хватит баз данных, по моим ощущениям, локальная для русскоязычной среды; в Европе и Штатах обычно начинают с баз данных, и если сильно жмёт - тогда смотрят на хадупы и спарки
А кто как делает датакаталог для S3 стораджа в AWS? Хочется собрать всю мету со структурой каталогов + как-то нужно показать описание того что там лежит. Т.е. задач состоит не в том чтобы текущее описать, а скорее то что будут загружать другие команды. Хочется как-то заранее всё предусмотреть и автоматизировать процесс сбора меты.
В моём случае всё усложняется всякими политиками вендор локов, т.е. в идеале решение должно переносится между клаудами или в он прем.... Но пока, я думаю хотя бы начать средствами AWS делать.