мои действия:
1) создан и запущен Spark Structured Streaming джоб, который пишет в каталог «/data/bronze/load_dt=YYYY-MM-DD/load_hh=NN»
2) я хочу регулярно (ночью) компактить позавчерашние партиции/субпартиции (проблема мелких файлов)
3) если я прогоню компакцию над каталогом «/data/bronze/load_dt=2020-12-27» и его подкаталогами, то содержимое в них перестанет соответствовать записям в Write-Ahead-Log-файлах внутри «/data/bronze/_spark_metadata»
4) как минимум я не смогу сделать
spark.read.parquet(«/data/bronze»)
потому что будет вычитываться список файлов для чтения из WAL внутри «_spark_metadata»
на это мне пофиг…
я хочу убедиться, что кроме чтения прочие операции (хаускипинг, восстановления при сбоях) не будут падать