T
подскажите, как быть в такой ситуации:
- есть Спарк-джоба, вычитывающая перекошенные данные
- по завершению вычитки нужно подсчитать общее кол-во строк и записать в HDFS
- при этом хочется отпустить ресурсы для уже отработавших экзекуторов, но они не могут де-аллоцироваться - так как в них закешированы данные датафрейма
нечо вроде:
val skewedDF = spark.read.format("пыщь-пыщь").load()
skewedDF.persist()
val cnt = skewedDF.count()
skewedDF.write.parquet("фьють-фьють")
skewedDF.unpersist()
как-то иначе count считать? аккумулятором каким-нибудь?