Телеграмм чат группы hadoopusers страница 2045

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1774 membersпожаловаться на группу

2020 February 07

N

Nikolay in Data Engineers

Роман Пашкевич

Это норма. Разовая перезагрузка данных за 3,5 года. Партиция по дате. Вот и выходит 1300+.

А Спарк же льет с экзекутора в hive ? Если для этого открывается с каждого экзнкьютора одно соединение , то значит на каждом у вас все даты. Может вам данные нужно так партиционировать, что бы на один экзекьютор все даты не приходили

источник

10:06пожаловаться #1

РП

Роман Пашкевич in Data Engineers

Nikolay

А Спарк же льет с экзекутора в hive ? Если для этого открывается с каждого экзнкьютора одно соединение , то значит на каждом у вас все даты. Может вам данные нужно так партиционировать, что бы на один экзекьютор все даты не приходили

Вот так сходу не отвечу. Ибо не знаю сколько экзекьюторов этот инсерт съедает. И тем более как там партиционировать даты, чтобы они на разные экзекьюторы приходили. Это уже выше моего скила в Спарке.

источник

10:09пожаловаться #2

N

Nikolay in Data Engineers

С hive я не работал , но с jdbc он делает именно так. С каждого экзнкьютора , на котором разнится финальная таска открывается коннект к базе.

источник

10:11пожаловаться #3

AK

Andrey Kozlenkov in Data Engineers

Привет. Может у кого нибудь было такое, и кто нибудь знает как избежать такой ситуации? После перезапуска приложения на spark struct streaming он не подхватил офсеты из чекпоинта, а взял последние из кафки и перезаписал их в chekpointLocation (spark 2.4.4)

источник

10:13пожаловаться #4

V

Vasiliy in Data Engineers

Nikolay

Если профессии , которые не отмерли , но сильно потеряли и теряют в количестве вакансий . Например - администратор oracle . Это уже почти как кузнец )

Некоторым кузницам оч не хватает кузнецов. Особенно в регионах. Не в it компаниях, естественно.

источник

10:22пожаловаться #5

N

Nikolay in Data Engineers

Vasiliy

Некоторым кузницам оч не хватает кузнецов. Особенно в регионах. Не в it компаниях, естественно.

Это безусловно . Сейчас даже лошадей где-то используют и есть такая профессия ,как наездник. . часть из них очень высокооплачиваемые

источник

10:24пожаловаться #6

DG

Denis Gabaydulin in Data Engineers

Andrey Kozlenkov

Привет. Может у кого нибудь было такое, и кто нибудь знает как избежать такой ситуации? После перезапуска приложения на spark struct streaming он не подхватил офсеты из чекпоинта, а взял последние из кафки и перезаписал их в chekpointLocation (spark 2.4.4)

Это complex question, надо смотреть оффсеты в метаданных стриминга, оффсеты в кафке (есть ли еще те, которые в метаданных) и не передает ли кто-то явно latest.

источник

10:27пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

Роман Пашкевич

Коллеги. Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
.config('hive.exec.dynamic.partition', 'true')
.config('hive.exec.dynamic.partition.mode', 'nonstrict')

Там над плясать с настройками , такая же проблема была , как вариант писать write.parquet(orc)

источник

10:27пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

И потом пошаманить с метастором

источник

10:27пожаловаться #9

R

Roman in Data Engineers

Роман Пашкевич

Коллеги. Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
.config('hive.exec.dynamic.partition', 'true')
.config('hive.exec.dynamic.partition.mode', 'nonstrict')

Можно просто сохранить в любом формате, который поддерживает hive, а потом накинуть в hive таблицу и партиции на эти данные

источник

10:46пожаловаться #10

РП

Роман Пашкевич in Data Engineers

Т.к. это разовая загрузка, пока обошелся разбивкой инсерта на 2 интервала.

источник

10:46пожаловаться #11

РП

Роман Пашкевич in Data Engineers

Но вообще будем сейчас думать. Т.к. в теории ситуация может повториться.

источник

10:47пожаловаться #12

SZ

Sergey Zhemzhitsky in Data Engineers

Чатик, тут вверху уже писали про лицензии Cloudera CDP и вот скажите, у кого какая политика в этом плане? Ехать на ванильный? Т.к. доступ к обновлениям CDH тож все

источник

12:05пожаловаться #13

A

Anton Kovalenko in Data Engineers

Sergey Zhemzhitsky

Чатик, тут вверху уже писали про лицензии Cloudera CDP и вот скажите, у кого какая политика в этом плане? Ехать на ванильный? Т.к. доступ к обновлениям CDH тож все

Ну этого стоило ожидать. Клаудеры будет закручивать гайки до упора.

источник

12:21пожаловаться #14

A

Anton Kovalenko in Data Engineers

Есть дистрибутив Arenadata Hadoop
https://arenadata.tech/

источник

12:23пожаловаться #15

СХ

Старый Хрыч in Data Engineers

а ветку с амбари уже прикрыли?

источник

12:23пожаловаться #16

СХ

Старый Хрыч in Data Engineers

от хортона которая была

источник

12:24пожаловаться #17

A

Anton Kovalenko in Data Engineers

Пока ещё жива вроде. Коммитов правда уже почти нет.

источник

12:26пожаловаться #18

як

я никуда не тороплюсь когда напьюсь тогда напьюсь in Data Engineers

I Апрельский

А оценки на Goodreads для технической литературы насколько всерьез стоит воспринимать?

Если оценок много и они больше 4 (4.20+) - можно доверять. 4.67+ - желательно читать. 4.8+ - обязательно, иначе вон из профессии

источник

15:49пожаловаться #19

GP

Grigory Pomadchin in Data Engineers

@I_zha у нас комьюнити одно (@datajobs тоже его часть); не все хотят читать эту полемику, кто хочет - тот в жобсах

источник

16:24пожаловаться #20