Телеграмм чат группы hadoopusers страница 2096

10:54пожаловаться #1

V

Vasiliy in Data Engineers

Может и так быть. И тут бааа, фастлоад)

10:55пожаловаться #2

AZ

Vasiliy

В смысле что надо контролировать нагрузку на комплекс. Когда он большую часть времени нагружен на 90+ в гипотетической системе.

Это ж не виртуальная сферическая инсталляция в вакууме

так я про то и пытался донести, TDCH позволяет очень гранулярно контролировать нагрузку: если нехватает fastload сессий - используйте batch.insert, если нужно строго задать число сессий - используйте tdch.throttle.num.mappers, причем все это сделано максимально эффективно для системы, никаких 1000 DDL и потом insert c 999 union statements (или 1000 insert select)

10:57пожаловаться #3

AZ

на такой загруженной системе идея запускать 1000 DDL на каждый джоб кмк субоптимальна

10:58пожаловаться #4

AZ

причем мы оставляем в стороне саму архитектуру писать из спарк джоба (видимо с бизнес-логикой) во внешнюю систему, как это тестировать, как рекавери делать при падении одного экзекьютора и так дальше - это просто ужасный дизайн, если это не стриминг

10:59пожаловаться #5

А

писать спарком во внешние бд получается не правильно? какой best practics тут?

11:28пожаловаться #6

AZ

писать спарком во внешние бд получается не правильно? какой best practics тут?

Правильно или нет это решать архитектору конкретного решения, но самая распространённая практика интеграций батчевых джобов в даталейке и внёсших систем - это разделить джобы с бизнес-логикой и джобы которые делают техническую интеграцию; это упрощает тестирование и деплоймент, появляется больше гибкости в управлении интеграции (посчитали все логику когда нам удобно, а загрузим соседям когда им удобно), и снижает нагрузку на кластер (загрузчикам как правило нужно сильно меньше ресурсов чем джобам с логикой)

11:37пожаловаться #7

А

Я просто обратил внимание на "рекавери делать при падении одного экзекьютора" - это действие получается не имеет решения из коробки?

11:38пожаловаться #8

R

Renarde in Data Engineers

Anton Zadorozhniy

Правильно или нет это решать архитектору конкретного решения, но самая распространённая практика интеграций батчевых джобов в даталейке и внёсших систем - это разделить джобы с бизнес-логикой и джобы которые делают техническую интеграцию; это упрощает тестирование и деплоймент, появляется больше гибкости в управлении интеграции (посчитали все логику когда нам удобно, а загрузим соседям когда им удобно), и снижает нагрузку на кластер (загрузчикам как правило нужно сильно меньше ресурсов чем джобам с логикой)

Плюсую за вот эту часть. Мухи отдельно - котлеты отдельно.
У нас сейчас есть две отдельные джобы- одна делает бизнес-логику, а вторая просто перекладывает результат из S3 в бд

11:39пожаловаться #9

А

если решения нет, то получается, в целом такому подходу сложно доверять

11:39пожаловаться #10

А

может как вариант: проверять наличие дубликатов на принимающей стороне и в случае их наличия перезапускать или группировать или чистить..

11:41пожаловаться #11

AZ

Я просто обратил внимание на "рекавери делать при падении одного экзекьютора" - это действие получается не имеет решения из коробки?

Тут зависит от конкретного коннектора, там можно нагородить логики доплогики, но да, в худшем случае вы получите пересчёт результата в Спарке и дубли в приёмнике

11:43пожаловаться #12

А

А данные коммитятся в удаленную бд в самом конце выполнения контейнера или каждый batchsize строк?

11:43пожаловаться #13

AZ

А данные коммитятся в удаленную бд в самом конце выполнения контейнера или каждый batchsize строк?

У нас можно и по кусочкам, и целиком (надо сказать JDBC что type=fastload, но только в пустую таблицу)

11:45пожаловаться #14

AZ

может как вариант: проверять наличие дубликатов на принимающей стороне и в случае их наличия перезапускать или группировать или чистить..

Действительно, insert select group by по все полям having cnt=1 на каждую таблицу - это достойная трата ресурсов МРР СУБД (когда можно было всего этого избежать и просто взять готовую таблицу)

11:47пожаловаться #15

А

ну чтото делать надо, в идеале, конечно, чтобы spark коммитил строки вконце выоплнения контейнера