Гарантированного варианта, вставить только уникальные записи в clickhouse, что бы не было некого промежутка времени между вставкой и чисткой дубликатов нет, ну окромя select final и group by
Есть же несколько сценариев использования CH
Один из них акцентирован на максимально быстрой записи большого объема информации. Так получается сейчас. Грубо говоря, сидит разработчик и анализирует тонны логов. Логи постоянно и помногу пишутся, а разработчик один. Тогда за скорость выборки можно не так волноваться.
А другой - на максимально компактном хранении и быстром чтении для использования. Пользователей и информации много, а новая информация записывается, но не так чтобы уж очень много. Тогда надо не так критична скорость записи.
Не планируются варианты движков с такими оптимизациями?