Size: a a a

2021 January 06

KS

K S in Data Engineers
Anton Zadorozhniy
Мне прям больно стало от мысли что там может быть RF3
RF = 3
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
RF = 3
ох
источник

AT

Al T in Data Engineers
зато надежно! :) записал так записал
источник

KS

K S in Data Engineers
Как я понимаю один из вариантов проблемы это поступление большого объема данных в hdfs, где rf=3 вызывает взрыв сетевой активности, или проще говоря засирает сеть, и учитывая, что данные хранятся на iscsi volumes, это может быть причиной значительного замедления hdfs  в целом?
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Как я понимаю один из вариантов проблемы это поступление большого объема данных в hdfs, где rf=3 вызывает взрыв сетевой активности, или проще говоря засирает сеть, и учитывая, что данные хранятся на iscsi volumes, это может быть причиной значительного замедления hdfs  в целом?
это может быть проблемой, а если у вас nodemanager.local-dirs еще там, то и промежуточные итоги у вас пишутся по сети, а потом по сети читаются
источник

AZ

Anton Zadorozhniy in Data Engineers
зависит какой мощи у вас таргет айскази, но это плохо в любом случае
источник

AZ

Anton Zadorozhniy in Data Engineers
это прямая противоположность идей создателей хадупа (и всех МРР баз данных), data locality, bring compute to storage и вот это все
источник

KS

K S in Data Engineers
Ещё отдельный вопрос по delta lake. Как там работает upsert? Например у меня есть батч, который ежечасно проверяет поле created_at в таблице бд и закидывает в hdfs преобразованные в паркет данные, которые используются hive table. В этой же таблице есть ещё несколько полей, которые могут быть изменены в зависимости от бизнес логики. Это получается мне нужно создать второй батч для backfill, который будет делать upsert в hive table?
источник

KS

K S in Data Engineers
Anton Zadorozhniy
это прямая противоположность идей создателей хадупа (и всех МРР баз данных), data locality, bring compute to storage и вот это все
Ясно, буду проверять, как доберусь до рабочего компа. Спасибо за информацию.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Ещё отдельный вопрос по delta lake. Как там работает upsert? Например у меня есть батч, который ежечасно проверяет поле created_at в таблице бд и закидывает в hdfs преобразованные в паркет данные, которые используются hive table. В этой же таблице есть ещё несколько полей, которые могут быть изменены в зависимости от бизнес логики. Это получается мне нужно создать второй батч для backfill, который будет делать upsert в hive table?
апсерт (мердж) пишет дельта файл, ридер умеет их читать вместе с основными данными и правильно учитывать
источник

KS

K S in Data Engineers
Anton Zadorozhniy
апсерт (мердж) пишет дельта файл, ридер умеет их читать вместе с основными данными и правильно учитывать
То есть логика по тому, когда и как проверять наличие изменений в бд и последующих апсертов - это отдельная песня?
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
То есть логика по тому, когда и как проверять наличие изменений в бд и последующих апсертов - это отдельная песня?
да, это ваш дата пайплайн решает
источник

KS

K S in Data Engineers
Anton Zadorozhniy
да, это ваш дата пайплайн решает
Понятно, спасибо!
источник

T

T in Data Engineers
Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью
источник

e

er@essbase.ru in Data Engineers
источник

СХ

Старый Хрыч... in Data Engineers
T
Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью
ksql будет? какой тип нагрузки?
источник

T

T in Data Engineers
Старый Хрыч
ksql будет? какой тип нагрузки?
ksql можно в тащить пожелаюнию но я бы не стал, нагрузнка на пример click stream
источник

AZ

Anton Zadorozhniy in Data Engineers
T
Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью
на собеседовании лучше не рассказывать чужие идеи, но лучше рассказать как вы понимаете эту задачу, если вы хорошо знаете архитектуру кафки - то там просто common sense, все довольно очевидно; а детальный вывод сайзинга прям с основных метрик зачтется вам как плюс
источник

AZ

Anton Zadorozhniy in Data Engineers
(я сам задаю подобные вопросы на собеседовании, как раз чтобы понять как человек понимает архитектуру и фундаментальные вещи)
источник

T

T in Data Engineers
Anton Zadorozhniy
на собеседовании лучше не рассказывать чужие идеи, но лучше рассказать как вы понимаете эту задачу, если вы хорошо знаете архитектуру кафки - то там просто common sense, все довольно очевидно; а детальный вывод сайзинга прям с основных метрик зачтется вам как плюс
Да это понятно, но для себя конечно хотелось бы понять как хотябы примерно оценить по верхней границы. Я тут просто не много решил даунгредится  но за то пойти к чуваком которые все стримово обрабатываю, так как надоело сидеть на бачах
источник