Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне 😁
Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.
Без backfill можно держать две таблицы - одна актуальная, другая с историей, места жрёт немного больше, зато немного экономии на том, что не нужно елозить и филить данные
Table_name
Table_name_log