Граждане, у нас тут в коммоне накопилась куча всяких вспомогательных функций для работы с DataFrame/DataSet/Sink спрака. Ну типа там df как-то сложно через dense_rank сагрегировать, поркеты рекурсивно прокомпактить, к схеме нужной примандить, с худи поработать, hbase посканить. Есть идея это заопенсурсить. Вопрос-оно вообще надо такое кому-то? А то процесс непростой, и если оно не надо, то и потеть неохота.
Ну кхм...
для начала посмотреть надо что есть
Я бы сказал так, кто-то точно найдёт пользу, так что если есть ресурсы и возможности то опенсорсните