Всем привет!
У меня возникла проблема, подскажите есть ли варианл елегантно ее решить?
создаю ctl поток, читаю из разных таблиц, джоиню, всячески фильтрую данные.
В итоге сохраняю данные в выходную таблицу следующим образом.
final
.write
.partitionBy("report_date", "product_id")
.mode("overwrite")
.saveAsTable(schema_out.table_out)
По идее "product_id", и "report_date" - это какой-то один продукт (к примеру
равен 03) за current_date. По невнимательности в поле product_id попал NULL.
И теперь мой поток пишет в две партиции product_id=03 и
product_id=__HEVE_DEFAULT_PARTITION__
В hdfs это выглядит следующим образом
/data/.../schema_out/table_out/report_date=2021-12-28
"product_id=00"
...
"product_id=03"
"product_id=__HEVE_DEFAULT_PARTITION__"
Доло в том что поток уже в проме. Другие потоки, которые имеют тот же product_id
падают из-за моего. Можно ли что-нибудь предпринять не вводя hotfix'ов потока?