AS
df.write.option("maxRecordsPerFile", n)
Еще есть вот такая штука, но я ничего адекватного не смог получить:
import org.apache.spark.util.SizeEstimator val size = SizeEstimator.estimate(df)
Ну или вот так, но адекватный размер возвращаел у меня, только при чтении с диска:
val catalyst_plan = df.queryExecution.logical
val df_size_in_bytes = spark.sessionState.executePlan( catalyst_plan).optimizedPlan.stats.sizeInBytes