Всем привет, подскажите по поведению спарка, есть логи в паркете (около 2 Tb), ищу в них регуляркой определенный паттерн, хочу записать csv с 100 строками из логов, удовлетворяющему условию.
val df = spark.read.parquet("/path/to/parquet/*").filter("_raw rlike 'GET'").limit(100)
val res = df.collect()
df.write.csv("/path/to/csv")
Почему collect отдает результаты почти сразу же, а write.csv запускает фильтр видимо по всем данным, а только потом выполняет limit?