Size: a a a

2019 May 11

t

tenKe in Data Engineers
ничего не значит, это была шутейка
источник

t

tenKe in Data Engineers
хотя раз откатили, наверное что-то не так опять
источник

EV

Eduard Vlasov in Data Engineers
источник

КБ

Константин Белов in Data Engineers
А как логику, которая сейчас в теле скрипта обернуть в функцию, и эту ф-ю передавать в torch.multiprocessing.spawn. чтобы первым аргументов в эту функцию придет текущий ранк.
источник

КБ

Константин Белов in Data Engineers
?
источник

OI

Oleg Ivchenko in Data Engineers
Кто-нибудь сталкивался с такой ошибкой Cloudera при настройке Алертов?

java.lang.NullPointerException:
at AlertData.java line 127
in com.cloudera.server.web.cmf.AlertData isParamSpecEnabled()


Версия CM 5.11.

На форумах ничего кроме "обновитесь" не нашёл.
источник
2019 May 12

A

Alex in Data Engineers
Oleg Ivchenko
Кто-нибудь сталкивался с такой ошибкой Cloudera при настройке Алертов?

java.lang.NullPointerException:
at AlertData.java line 127
in com.cloudera.server.web.cmf.AlertData isParamSpecEnabled()


Версия CM 5.11.

На форумах ничего кроме "обновитесь" не нашёл.
Наверное нужно обновить :) сталкивался с ошибками в cloudera agents python code, или свои патчи накатываешь или просто обновляешь :)
источник

ИК

Игорь Камынин in Data Engineers
Всем привет. Помогите, пожалуйста, добрым советом, статьей или просто подсказкой.
У меня есть 20 кафка-топиков, касандра и спарк в мезосе, которому можно использовать 4Гб памяти. Данные из кафки я сохраняю в касандру с помощью спарк-стриминга. На одну спарк-джобу нужно 512Мб (если меньше джоба просто не запускается).
В определенный момент, данные из кафки заканчиваются и я хочу "приостановить" джобу, дать ресурсы другой, а когда и там все данные из кафки вычитаны, "приостановить" текущую джобу и дать ресурсы третей джобе в очереди и т.д. Кто-то у себя похожее настраивал? есть ли для этого инструменты у самого спарка?
источник

GG

George Gaál in Data Engineers
Эм. Мне кажется, что это стриминг, но кривой
источник

GG

George Gaál in Data Engineers
Почему бы нормальный консьюмер не написать и работать в потоке ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Игорь Камынин
Всем привет. Помогите, пожалуйста, добрым советом, статьей или просто подсказкой.
У меня есть 20 кафка-топиков, касандра и спарк в мезосе, которому можно использовать 4Гб памяти. Данные из кафки я сохраняю в касандру с помощью спарк-стриминга. На одну спарк-джобу нужно 512Мб (если меньше джоба просто не запускается).
В определенный момент, данные из кафки заканчиваются и я хочу "приостановить" джобу, дать ресурсы другой, а когда и там все данные из кафки вычитаны, "приостановить" текущую джобу и дать ресурсы третей джобе в очереди и т.д. Кто-то у себя похожее настраивал? есть ли для этого инструменты у самого спарка?
Можно повесить какую-то логику на мониторинг лага, но этой логике тоже потребуется память 🙂 Ну или на крон повесить.. Вообще если вы так по памяти прижимаетесь наверное нужно потратить ресурсы на что-то другое
источник

AZ

Anton Zadorozhniy in Data Engineers
а потом когда лаг появится - вы будете эвиктить джобы чтобы дать ресурсы стримингу? обычно от стриминга ожидание определенных гарантий, а такая экономия сделает это сложнее
источник

K

KrivdaTheTriewe in Data Engineers
Игорь Камынин
Всем привет. Помогите, пожалуйста, добрым советом, статьей или просто подсказкой.
У меня есть 20 кафка-топиков, касандра и спарк в мезосе, которому можно использовать 4Гб памяти. Данные из кафки я сохраняю в касандру с помощью спарк-стриминга. На одну спарк-джобу нужно 512Мб (если меньше джоба просто не запускается).
В определенный момент, данные из кафки заканчиваются и я хочу "приостановить" джобу, дать ресурсы другой, а когда и там все данные из кафки вычитаны, "приостановить" текущую джобу и дать ресурсы третей джобе в очереди и т.д. Кто-то у себя похожее настраивал? есть ли для этого инструменты у самого спарка?
Можно сделать батч джобу
источник

ИК

Игорь Камынин in Data Engineers
George Gaál
Почему бы нормальный консьюмер не написать и работать в потоке ?
в будущем таблицы касандры, в которые мы сейчас сохраняем данные будут удалены. Но нужно будет делать разного рода вычесления и сохранять в несколько таблиц, возможно читать из двух топиков и соединять их в один rdd. В общем, сейчас можно и простым консьюмером, но есть желание на вот такой задаче получше пощупать спарк, чтобы потом с его помщью делать вещи посложнее
источник

K

KrivdaTheTriewe in Data Engineers
Вернее на стриминг повесить триггеред ванс
источник

K

KrivdaTheTriewe in Data Engineers
И запускать раз в час условно
источник

K

KrivdaTheTriewe in Data Engineers
Переписывать ничего не нужно
источник

K

KrivdaTheTriewe in Data Engineers
Это если на структурном стриминге
источник

ИК

Игорь Камынин in Data Engineers
Anton Zadorozhniy
а потом когда лаг появится - вы будете эвиктить джобы чтобы дать ресурсы стримингу? обычно от стриминга ожидание определенных гарантий, а такая экономия сделает это сложнее
сейчас у меня вопрос больше по поводу возможно ли в приципе подобное?. Увеличить количесвто ресурсов мы всегда успеем)
источник

ИК

Игорь Камынин in Data Engineers
Anton Zadorozhniy
а потом когда лаг появится - вы будете эвиктить джобы чтобы дать ресурсы стримингу? обычно от стриминга ожидание определенных гарантий, а такая экономия сделает это сложнее
я думал о том, чтобы стопнуть джобу и сразу закинуть ее в очередь. Как ресурсы на джобы в очереди свободны, она начинает работу
источник