Н
Size: a a a
Н
Н
domain is_shop ... has_phone_number
google.ru True True
R
привет, у меня flume стримит в папку на hdfs, хочу отпроцессить эти данные и затирать то, что прочитал и писать в hive красиво, чтобы не плодить маленькие файлы.
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?
delta
-формат, время от времени прогоняешь compaction по записанным даннымН
R
import org.apache.spark.sql.functions.input_file_name
R
def foreachBatch(some_args): Unit = {
val df = processBatch(batch)
val fnames = df.withColumn(“ifn”, input_file_name).select(“input_file_name”).distinct().collect()
fnames.map(deleteFile)
}
R
Н
Н
R
Н
R
Н
V
A
V
EV
EP
EV
EP