Size: a a a

2020 February 07

N

Nikolay in Data Engineers
Роман Пашкевич
Это норма. Разовая перезагрузка данных за 3,5 года. Партиция по дате. Вот и выходит 1300+.
А Спарк же льет с экзекутора в hive ? Если для этого открывается с каждого экзнкьютора одно соединение , то значит на каждом у вас все даты.  Может вам данные нужно так партиционировать, что бы на один экзекьютор все даты не приходили
источник

РП

Роман Пашкевич in Data Engineers
Nikolay
А Спарк же льет с экзекутора в hive ? Если для этого открывается с каждого экзнкьютора одно соединение , то значит на каждом у вас все даты.  Может вам данные нужно так партиционировать, что бы на один экзекьютор все даты не приходили
Вот так сходу не отвечу. Ибо не знаю сколько экзекьюторов этот инсерт съедает. И тем более как там партиционировать даты, чтобы они на разные экзекьюторы приходили.  Это уже выше моего скила в Спарке.
источник

N

Nikolay in Data Engineers
С hive я не работал , но с jdbc он делает именно так. С каждого экзнкьютора , на котором разнится финальная таска открывается коннект к базе.
источник

AK

Andrey Kozlenkov in Data Engineers
Привет. Может у кого нибудь было такое, и кто нибудь знает как избежать такой ситуации? После перезапуска приложения на  spark struct streaming он не подхватил офсеты из чекпоинта, а взял последние из кафки и перезаписал их в chekpointLocation (spark 2.4.4)
источник

V

Vasiliy in Data Engineers
Nikolay
Если профессии , которые не отмерли , но сильно потеряли и теряют в количестве вакансий . Например - администратор oracle . Это уже почти как кузнец )
Некоторым кузницам оч не хватает кузнецов. Особенно в регионах. Не в it компаниях, естественно.
источник

N

Nikolay in Data Engineers
Vasiliy
Некоторым кузницам оч не хватает кузнецов. Особенно в регионах. Не в it компаниях, естественно.
Это безусловно . Сейчас даже лошадей где-то используют и есть такая профессия ,как наездник. . часть из них очень высокооплачиваемые
источник

DG

Denis Gabaydulin in Data Engineers
Andrey Kozlenkov
Привет. Может у кого нибудь было такое, и кто нибудь знает как избежать такой ситуации? После перезапуска приложения на  spark struct streaming он не подхватил офсеты из чекпоинта, а взял последние из кафки и перезаписал их в chekpointLocation (spark 2.4.4)
Это complex question, надо смотреть оффсеты в метаданных стриминга, оффсеты в кафке (есть ли еще те, которые в метаданных) и не передает ли кто-то явно latest.
источник

K

KrivdaTheTriewe in Data Engineers
Роман Пашкевич
Коллеги.  Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
    .config('hive.exec.dynamic.partition', 'true')
    .config('hive.exec.dynamic.partition.mode', 'nonstrict')
Там над плясать с настройками , такая же проблема была , как вариант писать write.parquet(orc)
источник

K

KrivdaTheTriewe in Data Engineers
И потом пошаманить с метастором
источник

R

Roman in Data Engineers
Роман Пашкевич
Коллеги.  Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
    .config('hive.exec.dynamic.partition', 'true')
    .config('hive.exec.dynamic.partition.mode', 'nonstrict')
Можно просто сохранить в любом формате, который поддерживает hive, а потом накинуть в hive таблицу и партиции на эти данные
источник

РП

Роман Пашкевич in Data Engineers
Т.к. это разовая загрузка, пока обошелся разбивкой инсерта на 2 интервала.
источник

РП

Роман Пашкевич in Data Engineers
Но вообще будем сейчас думать. Т.к. в теории ситуация может повториться.
источник

SZ

Sergey Zhemzhitsky in Data Engineers
Чатик, тут вверху уже писали про лицензии Cloudera CDP и вот скажите, у кого какая политика в этом плане? Ехать на ванильный? Т.к. доступ к обновлениям CDH тож все
источник

A

Anton Kovalenko in Data Engineers
Sergey Zhemzhitsky
Чатик, тут вверху уже писали про лицензии Cloudera CDP и вот скажите, у кого какая политика в этом плане? Ехать на ванильный? Т.к. доступ к обновлениям CDH тож все
Ну этого стоило ожидать. Клаудеры будет закручивать гайки до упора.
источник

A

Anton Kovalenko in Data Engineers
Есть дистрибутив Arenadata Hadoop
https://arenadata.tech/
источник

СХ

Старый Хрыч in Data Engineers
а ветку с амбари уже прикрыли?
источник

СХ

Старый Хрыч in Data Engineers
от хортона которая была
источник

A

Anton Kovalenko in Data Engineers
Пока ещё жива вроде. Коммитов правда уже почти нет.
источник

як

я никуда не тороплюсь когда напьюсь тогда напьюсь in Data Engineers
I Апрельский
А оценки на Goodreads для технической литературы насколько всерьез стоит воспринимать?
Если оценок много и они больше 4 (4.20+) - можно доверять. 4.67+ - желательно читать. 4.8+ - обязательно, иначе вон из профессии
источник

GP

Grigory Pomadchin in Data Engineers
@I_zha у нас комьюнити одно (@datajobs тоже его часть); не все хотят читать эту полемику, кто хочет - тот в жобсах
источник