Телеграмм чат группы hadoopusers страница 1959

сорян за такой поток мыслей))

17:38пожаловаться #1

каждая строка большой html странички от краулера
{"text":"large html"}
Вот хочу отпроцессить (найти различные вхождения в html) его через спарк и записать в таблицу типа

domain     is_shop ... has_phone_number
google.ru  True          True

17:40пожаловаться #2

Никита

привет, у меня flume стримит в папку на hdfs, хочу отпроцессить эти данные и затирать то, что прочитал и писать в hive красиво, чтобы не плодить маленькие файлы.
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?

можешь делать следующее:
- читаешь файловый поток через StructuredStreaming
- После каждого батча берешь имена прочитанных файлов и удаляешь их в исходнике
- Данные пишешь в delta -формат, время от времени прогоняешь compaction по записанным данным

17:47пожаловаться #3

а как узнать имена прочитаных файлов?

17:52пожаловаться #4

в scala как минимум есть функция:

import org.apache.spark.sql.functions.input_file_name

18:06пожаловаться #5

она вернет для каждой записи имя файла. можно после батча сделать что-то вроде (псевдокод):

def foreachBatch(some_args): Unit = {
  val df = processBatch(batch)
  val fnames = df.withColumn(“ifn”, input_file_name).select(“input_file_name”).distinct().collect() 
  fnames.map(deleteFile)
}

18:08пожаловаться #6

Но вообще обычно стараются не удалять исходники (так называемый raw data level) насовсем. Что будет, если твой процессинг радикально поменялся и тебе нужно сделать refeed и заново отчитать все исходные текстовые файлы?

18:11пожаловаться #7

ну я могу еще раз прогнать, я просто не хочу процесить старые данные, а только новые поступающие

18:15пожаловаться #8

Правильно ли я понимаю, если я перезапущу скрипт со structured streaming, то он начнет работать с самого начала

18:17пожаловаться #9

Никита

ну я могу еще раз прогнать, я просто не хочу процесить старые данные, а только новые поступающие

так зачем файлы то удалять после прочтения тогда?
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources
спарк будет автоматически помечать прочитанные файлы, но нужно будет включить checkpointing. Чекпоинт будет хранить информацию о последнем прочитанном файле

18:18пожаловаться #10

о, хорошо тогда

18:19пожаловаться #11

вот тут про чекпоинт можно почитать:
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#recovering-from-failures-with-checkpointing

18:20пожаловаться #12

спс

18:21пожаловаться #13

2020 January 15

Vlad in Data Engineers

Привет, при сабмите через Livy нескольких spark апликейшенов( около 10), несколько из них падает с ошибкой http 409 конфликт при записи. Может кто-нибудь сталкивался с подобным?

09:43пожаловаться #14

Alex in Data Engineers

а какая версия livy?
у меня правда ошибки такой не было и в коде livy про конфликт тоже ничего нету (по крайней мере в версии 0.5.х)

09:58пожаловаться #15

Vlad in Data Engineers

Alex

0.5.0.3

10:38пожаловаться #16

Eduard Vlasov in Data Engineers

Всем приветик,
есть задачка обстреливать HTTP API из Flink DataStream, как правильно это реализовать если нужна гарантия доставки at least once? У меня варианты это RichAsyncFunction или кастомный синк
Я пока не понял как это все поведет себя в случае отказа downstream API

11:04пожаловаться #17

Easycore Programming in Data Engineers

Коллеги, такой вопрос, как мне в спарке выполнить единоразовую операцию на каждом экзекьюторе? Например зарегистрировать jdbc драйвер

11:48пожаловаться #18

Eduard Vlasov in Data Engineers

Easycore Programming

mapPartitions

11:53пожаловаться #19

Easycore Programming in Data Engineers

Да хотел уточнить, что там стриминг и mapPartitions будет регистрировать драйвер на на каждом батче. Или просто использовать флаг, что драйвер уже зарегистрирован?