Телеграмм чат группы hadoopusers страница 1648

Да и на hdfs, когда я вычитал весь топик стал писать мелкие паркеты раз в минуту, как оговорено. Но вот до этого много миллионов записей он 30 минут жевал джобом #0. Зато теперь, когда лага почти нет в спарковском гуе я вижу каждую минуту +1 джоб и соответственно файлики на hdfs.

источник

06:02пожаловаться #5

神

神風 in Data Engineers

Stanislav

аккуратно с этим
при уменьшении количества свободного места до 10% ярна встанет
а для хдфса вроде и норм быть настолько заполненным

Поймали такое буквально вчера, но на другом кластере. Спасибо за предупреждение)

источник

06:07пожаловаться #6

tenKe in Data Engineers

神風

Не, я вот про этот df.writeStream .format("console") .trigger(Trigger.ProcessingTime("2 seconds"))

и я про этот)

источник

09:03пожаловаться #7

神

神風 in Data Engineers

tenKe

и я про этот)

Тогда нифига не понял. В какой момент происходит запись на hdfs батча?

источник

09:36пожаловаться #8

tenKe in Data Engineers

神風

Тогда нифига не понял. В какой момент происходит запись на hdfs батча?

в функции addBatch

https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/Sink.scala

GitHub

apache/spark

Apache Spark. Contribute to apache/spark development by creating an account on GitHub.

источник

10:10пожаловаться #9

Alex in Data Engineers

神風 все же просто:

Да, тригерит каждые 2 минуты, вычитать всё что набежало

На холодном старте у вас в топике уже набралось много и он пытается прожевать за один раз (от последнего комита до now, в итоге процессинг может занять много времени и выйти за интервал).

Не вызывает вопросов если знать как это работает:

1) Драйвер раз в ваш указанный интервал запускается и смотрит последний процешшенный id и текущий, есть что-то есть забрасывает таск в котором указано Start offset и end offset.

2) на ui вы увидете размер этого батча и в какой сколько уйдёт

3) если какой-то начинает долго процессится, то появляется очередь и вы начинаете батч писать в прошлое, так как процессинг уже давно запланирован был, вы не успеваете это делать

4) если в момент отставания вы сделаете рестарт то вся очередь задач теряется и в первый же батч может очень много

5) рулится параметрами тротлинга на кафку, сколько максимум в одну партицию за раз можно скедулить (например "не более 1000 message/s", это не значит что вы будете непрерывно читать с этой скоростью, а лишь что в 2 мин интервал вам влетить 120*1000 сообщений с партиции)

6) но все равно помнится был баг именно на холодный старт и большой объем, вроде уже фиксили

источник

10:45пожаловаться #10

Alex in Data Engineers

То есть считайте что тригер по процессинг тайму это такой тригер который расставляет флажки говорящие "работай от предыдуще флажка до вот этого последнего"

Это не значит: процессим непрерывно, пришло 2 минуты, флашнули что есть начали следующий интервал

Скедулер нарезающий задачи и воркеры независимы

источник

10:50пожаловаться #11

神

神風 in Data Engineers

Спасибо за развёрнутый ответ!

источник

11:16пожаловаться #12

2019 September 29

СХ

Старый Хрыч in Data Engineers

кстати тут же кто-то хвастался что спарк воркеры в кубере гоняет

источник