Телеграмм чат группы hadoopusers страница 3125

Как я понимаю один из вариантов проблемы это поступление большого объема данных в hdfs, где rf=3 вызывает взрыв сетевой активности, или проще говоря засирает сеть, и учитывая, что данные хранятся на iscsi volumes, это может быть причиной значительного замедления hdfs в целом?

источник

15:21пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

K S

Как я понимаю один из вариантов проблемы это поступление большого объема данных в hdfs, где rf=3 вызывает взрыв сетевой активности, или проще говоря засирает сеть, и учитывая, что данные хранятся на iscsi volumes, это может быть причиной значительного замедления hdfs в целом?

это может быть проблемой, а если у вас nodemanager.local-dirs еще там, то и промежуточные итоги у вас пишутся по сети, а потом по сети читаются

источник

15:29пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

зависит какой мощи у вас таргет айскази, но это плохо в любом случае

источник

15:29пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

это прямая противоположность идей создателей хадупа (и всех МРР баз данных), data locality, bring compute to storage и вот это все

источник

15:29пожаловаться #7

KS

K S in Data Engineers

Ещё отдельный вопрос по delta lake. Как там работает upsert? Например у меня есть батч, который ежечасно проверяет поле created_at в таблице бд и закидывает в hdfs преобразованные в паркет данные, которые используются hive table. В этой же таблице есть ещё несколько полей, которые могут быть изменены в зависимости от бизнес логики. Это получается мне нужно создать второй батч для backfill, который будет делать upsert в hive table?

источник

15:31пожаловаться #8

KS

K S in Data Engineers

Anton Zadorozhniy

это прямая противоположность идей создателей хадупа (и всех МРР баз данных), data locality, bring compute to storage и вот это все

Ясно, буду проверять, как доберусь до рабочего компа. Спасибо за информацию.

источник

15:32пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

K S

Ещё отдельный вопрос по delta lake. Как там работает upsert? Например у меня есть батч, который ежечасно проверяет поле created_at в таблице бд и закидывает в hdfs преобразованные в паркет данные, которые используются hive table. В этой же таблице есть ещё несколько полей, которые могут быть изменены в зависимости от бизнес логики. Это получается мне нужно создать второй батч для backfill, который будет делать upsert в hive table?

апсерт (мердж) пишет дельта файл, ридер умеет их читать вместе с основными данными и правильно учитывать

источник

15:35пожаловаться #10

KS

K S in Data Engineers

Anton Zadorozhniy

апсерт (мердж) пишет дельта файл, ридер умеет их читать вместе с основными данными и правильно учитывать

То есть логика по тому, когда и как проверять наличие изменений в бд и последующих апсертов - это отдельная песня?

источник

16:16пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

K S

То есть логика по тому, когда и как проверять наличие изменений в бд и последующих апсертов - это отдельная песня?

да, это ваш дата пайплайн решает

источник

16:16пожаловаться #12

KS

K S in Data Engineers

Anton Zadorozhniy

да, это ваш дата пайплайн решает

Понятно, спасибо!

источник

16:19пожаловаться #13

T

T in Data Engineers

Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью

источник

18:16пожаловаться #14

e

er@essbase.ru in Data Engineers

https://www.google.ru/search?q=sizing+kafka&oq=sizing+kafka&sourceid=chrome&ie=UTF-8

www.google.ru

sizing kafka - Google Search

источник

18:34пожаловаться #15

СХ

Старый Хрыч... in Data Engineers

T

Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью

ksql будет? какой тип нагрузки?

источник

18:34пожаловаться #16

T

T in Data Engineers

Старый Хрыч

ksql будет? какой тип нагрузки?

ksql можно в тащить пожелаюнию но я бы не стал, нагрузнка на пример click stream

источник

18:35пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

T

Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью

на собеседовании лучше не рассказывать чужие идеи, но лучше рассказать как вы понимаете эту задачу, если вы хорошо знаете архитектуру кафки - то там просто common sense, все довольно очевидно; а детальный вывод сайзинга прям с основных метрик зачтется вам как плюс

источник

18:36пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

(я сам задаю подобные вопросы на собеседовании, как раз чтобы понять как человек понимает архитектуру и фундаментальные вещи)

источник

18:37пожаловаться #19

T

T in Data Engineers

Anton Zadorozhniy

на собеседовании лучше не рассказывать чужие идеи, но лучше рассказать как вы понимаете эту задачу, если вы хорошо знаете архитектуру кафки - то там просто common sense, все довольно очевидно; а детальный вывод сайзинга прям с основных метрик зачтется вам как плюс

Да это понятно, но для себя конечно хотелось бы понять как хотябы примерно оценить по верхней границы. Я тут просто не много решил даунгредится но за то пойти к чуваком которые все стримово обрабатываю, так как надоело сидеть на бачах

источник

18:39пожаловаться #20