Понимаю. Много мыслей по этому поводу. Если есть индексы, то нужны адресуемые единицы хранения данных, на которые индексы смогут указывать. Если данные изменяются, нужно разруливать превышение размера хранения, переносить часть данных, уплотнять и тому подобное. DDL, секционирование, битовые индексы, да в общем всё, что РСУБД накопили за десятилетия, хорошо будет видеть в применении к бигдате
С другой стороны, разве это не переизобретение колеса? Ora, TD, PG, GP уже есть и предлагают огромные возможности как для тех, кто готов платить, так и для тех, кто продолжает плакать и колоться))
А к паркету (и к ORC) вполне можно битовый индекс прикрутить, и пушдаунить предикаты по индексу. Но ведь уже есть сжатие по словарю, в некоторых случаях поиск по нему будет также эффективен
Ещё всегда вспоминаю формат CarbonData. Очень многое в нём было сделано, и DDL и индексы и матвью, но опыт использования скорее негативный, и слышно о формате не так много, как о том же Hudi