Всем привет, pyspark, есть df с udf, не понимаю что происходит, делаю следующее:
1. df = df.withColumn(udf)
2. df.cache()
3.
df.select().saveAsTable()
4. df.filter().select().saveAsTable()
5. df.collect() = []
Хочу считать udf только один раз, для этого делаю cache(). Пробовал делать checkpoint, но это при этом udf пересчитывается много раз.
Почему после второго сохранения df пустой?
Почему после первого сохранения df не пустой?
Где можно поискать объяснений? спасибо