спасибо за ответ, вы ее использовали когда она еще не опенсорусная была, ее вроде выложили только на прошедшем саммите?
да, до опенсурса, за опенсурсную версию ничего сказать не могу.
У нас был такой юзкейс - есть табличка в 1ТБ, в ней нужно из стриминга делать апдейты - около 1000 вставок в минуту прилетает. Спарк стриминг приложение на 4 хостах xlarge выполняло merge этой тысячи строк за 40 минут, что в нашем юзкейсе совсем не подходит.
В связи с этим мы переписали подход на чистом паркете, без merge into и с множественными снепшотами, которые раз в день кладутся в память - это ускорило наш процесс в 3 раза, но все еще нехватает, поэтому мы сейчас думаем над тем чтобы вообще перестать писать в паркет промежуточные данные и все это в KV залить (тут встает вопрос в какой KV), туда апзертить объекты и потом результат апзерта писать дальше на потребителей