Size: a a a

2021 April 26

VP

Vitaly Pismarev in Data Engineers
Так этим пивотал и занимается уже. Они ананосировали что каждая следующая версия GP будет догонять актуальную версию PG. Можно в чатике по гп про это подробнее узнать
источник

AE

Alexey Evdokimov in Data Engineers
работа не волк.
пока кластер считает, программист — треплется ;)
источник

R

Ruslan in Data Engineers
Терадата больше под бизнес критичные отчёты витрины, а хадуп для исследования, если упадёт не так критично
источник

AE

Alexey Evdokimov in Data Engineers
всегда интересно было, а что означает "хадуп" в таких вот утверждениях
источник

AE

Alexey Evdokimov in Data Engineers
это ж блин куча разрозненных библиотек
источник

AE

Alexey Evdokimov in Data Engineers
и компонентов
источник

AE

Alexey Evdokimov in Data Engineers
из которых собрать можно ну мильён совершенно разных фиговин
источник

AE

Alexey Evdokimov in Data Engineers
"у нас хадуп" == "у нас радикулит"
источник

V

Vasiliy in Data Engineers
У радикулита битность повыше)
источник

A

Alex in Data Engineers
привет, вот такой вот вопрос - скажем есть у меня EMR кластер и я туда насабмитал 1000 спарк джоб, но ресурсов у кластера есть только на 10 из них чтобы запустить в паралель. Будут ли остальные 995 стоять в очереди и ждать пока ресурсы появятся или же отвалятся сразу ? Если будут стоять в очереди - то как долго - бесконечное кол-во времени или там есть понятие таймаута после которого они начнут отваливаться ?
источник

V

Vasiliy in Data Engineers
Он же позволяет скейлится... Или вы хотите посчитать до упора на оставшиеся)?
источник

A

Alex in Data Engineers
интересует само возможное поведение  кластера если скажем скейлиться дальше он уже не может
источник

AE

Alexey Evdokimov in Data Engineers
чем сабмитили? livy, например, умеет таймаут задавать
источник

AE

Alexey Evdokimov in Data Engineers
да и вообще, для таких дел неплохо иметь CI какой-нить, чтобы джобы в нём висели, а не на кластере
источник

A

Alex in Data Engineers
сабмитим Airflow
источник

A

Alex in Data Engineers
мой вопрос теоретический - как поведет себя EMR кластер если Airflow попробует засабмитить ему 1000 спарк джоб. EMR примет их всех и поставит во внутреннюю очередь либо отстрелит Airflow с ошибкой если тот же YARN не будет иметь ресурсов для очередной джобы ?
источник

GP

Grigory Pomadchin in Data Engineers
смотря как сабмитишь
прост не вижу тут вопроса
источник

GP

Grigory Pomadchin in Data Engineers
у тебя в любом случае будет очередь, и она будет ярном рзабираться учитывая твой паралелизм
источник

AZ

Anton Zadorozhniy in Data Engineers
может и так и эдак, зависит от того какой кластер, какие приложеньки, и какие настройки
источник

AZ

Anton Zadorozhniy in Data Engineers
но вообще в EMR настраивать очередит CapacityScheduler это такое, обычно толкают последовательные джобы на одном кластере, а параллельные - на разных (если только они не очень мелкие)
источник