Ммм... у меня есть пара мыслей и проект, который я писал с пайплайнами экономических данных на питоне, типа такой ETL на датафреймах. На проекте я понял, что даннве доожны быть очень большие, разнородные и уникалтные, чтобы оправдать разработку нового инструмента.
Ну вот у меня по работе они как раз большие. А по поводу разнородности и уникальности - не уверен что она нужна для оправданности, может быть даже наоборот. Опять таки идею я пока для себя полностью не сформуловал, так отрывки.
Вот лично у меня часто встают задачи типа посчтитать конверсию для когорты пользователей из события А(одна таблица в кликхаузе) в событие B(другая таблица в кликхаузе) в течении какого-то времени (т.е. не просто select from B where id in (select id from A), а событие в B должно произойти после события в A в течении N дней).
При этом эта задача воспроизводится во всевозможных вариациях - когда-то сама когорта пользователей получается не тривиальным образом (например приходит не из клика, а из какой-то выгрузки id, или является результатом кластеризации). Когда-то события в которые нужно посчитать конверсию это результат сложного запроса.
И мне было бы очень удобно один раз написать код, который это делает по указанным входным данным, а потом в идеале в графическом интерфейсе при поступлении очередной хотелки менеджеров просто связать его с конкретными входными данными, на его выход навесить какие-то варианты стандарных аггрегаций/фильтраций, возможно настроить сохранение в локальный сторадж и тут же отправить на вход дашборда.