Size: a a a

2019 September 15

Ж

Жмака in Data Engineers
Anton Zadorozhniy
точно стоит еще потестировать вашу нагрузку против имр до миграции, там все сильно хуже даже самого захудалого он-прем бареметал, а если у вас промышленное железо то сайзинг надо заново делать
Протестировали mr джобом. Было тяжело. Регионы валились, поэтому просто добавили другой тир для серверов
источник

Ж

Жмака in Data Engineers
Но на ба метале просто памяти много было, а я решил в половину скостить (244 вместо 512 на он прем) и ничего, прошел, хоть и работал сутки.
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Но на ба метале просто памяти много было, а я решил в половину скостить (244 вместо 512 на он прем) и ничего, прошел, хоть и работал сутки.
А вы на барметале память утилизировали? Бакет кэш например
источник

Ж

Жмака in Data Engineers
Anton Zadorozhniy
А вы на барметале память утилизировали? Бакет кэш например
Эти кластеры вне моего доступа. Я получил только общую инфу и hbase-site.xml. Там не особо конфигурировали memstore и blockcache. Шли по принципу добавления region server
источник

C

Combot in Data Engineers
roy Koca - Trakx.io Supporter has been banned! Reason: CAS ban.
источник
2019 September 16

RI

Rustam Iksanov in Data Engineers
Инженеры! Нужна помощь! Никак не получается организовать стриминг из кафки. Суть такая. Из кафки приходить json. В нем данные, которые нужны для генерации. Из кафки получаю данные через readStream, затем десериализую в Dataset[A]. После через map преобразую в Dataset[B], который записываю в Json виде в kafka через writeStream. метод из Dataset[A->B] содержит много доп работы. Чтение данных из phoenix-hbase, а также  различные join'ы. вроде везде подпорки поставил, но теперь получил NPE при join'e двух DF внутри map.
источник

В

Вадим in Data Engineers
Rustam Iksanov
Инженеры! Нужна помощь! Никак не получается организовать стриминг из кафки. Суть такая. Из кафки приходить json. В нем данные, которые нужны для генерации. Из кафки получаю данные через readStream, затем десериализую в Dataset[A]. После через map преобразую в Dataset[B], который записываю в Json виде в kafka через writeStream. метод из Dataset[A->B] содержит много доп работы. Чтение данных из phoenix-hbase, а также  различные join'ы. вроде везде подпорки поставил, но теперь получил NPE при join'e двух DF внутри map.
Npe в scala? Недурно:)
источник

RI

Rustam Iksanov in Data Engineers
Вадим
Npe в scala? Недурно:)
П - Профессионализм ((
источник

R

Renarde in Data Engineers
Rustam Iksanov
Инженеры! Нужна помощь! Никак не получается организовать стриминг из кафки. Суть такая. Из кафки приходить json. В нем данные, которые нужны для генерации. Из кафки получаю данные через readStream, затем десериализую в Dataset[A]. После через map преобразую в Dataset[B], который записываю в Json виде в kafka через writeStream. метод из Dataset[A->B] содержит много доп работы. Чтение данных из phoenix-hbase, а также  различные join'ы. вроде везде подпорки поставил, но теперь получил NPE при join'e двух DF внутри map.
насколько я помню, далеко не во всех форматах вывода поддерживается stream-to-stream join. Проверить можно в официальном гайде:
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
источник

R

Renarde in Data Engineers
А если быть точным, то вот тут описано как можно и как нельзя джойнить:
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#support-matrix-for-joins-in-streaming-queries
источник

K

KrivdaTheTriewe in Data Engineers
Rustam Iksanov
Инженеры! Нужна помощь! Никак не получается организовать стриминг из кафки. Суть такая. Из кафки приходить json. В нем данные, которые нужны для генерации. Из кафки получаю данные через readStream, затем десериализую в Dataset[A]. После через map преобразую в Dataset[B], который записываю в Json виде в kafka через writeStream. метод из Dataset[A->B] содержит много доп работы. Чтение данных из phoenix-hbase, а также  различные join'ы. вроде везде подпорки поставил, но теперь получил NPE при join'e двух DF внутри map.
Обмажь все A и B кейсклассы Option
источник

K

KrivdaTheTriewe in Data Engineers
Чтобы все внутренние поля датасета были Option
источник

RI

Rustam Iksanov in Data Engineers
KrivdaTheTriewe
Обмажь все A и B кейсклассы Option
К сожалению, пока не представлю как это сделать. Там между А и В все в DF. Нужно каждый этап заворачивать в case class по хорошему.
источник

K

KrivdaTheTriewe in Data Engineers
Rustam Iksanov
К сожалению, пока не представлю как это сделать. Там между А и В все в DF. Нужно каждый этап заворачивать в case class по хорошему.
Ну у тебя есть case class
источник

K

KrivdaTheTriewe in Data Engineers
Который ты используешь в датасете
источник

K

KrivdaTheTriewe in Data Engineers
Сделай так чтобы все роля твоих case class были Option
источник

K

KrivdaTheTriewe in Data Engineers
У тебя скорее всего занулляется поле при джойне , раз или в жсоне два
источник

RI

Rustam Iksanov in Data Engineers
KrivdaTheTriewe
Ну у тебя есть case class
да, просто npe падает не там. после кафки, ранится функция, куда передаются значения из case class и там все нормально. В процессе выполнения функции, она генерирует доп данные, и там уже есть join между DF, где я и получаю npe
источник

K

KrivdaTheTriewe in Data Engineers
Rustam Iksanov
да, просто npe падает не там. после кафки, ранится функция, куда передаются значения из case class и там все нормально. В процессе выполнения функции, она генерирует доп данные, и там уже есть join между DF, где я и получаю npe
А как проверяешь , что до работает ?
источник

RI

Rustam Iksanov in Data Engineers
KrivdaTheTriewe
А как проверяешь , что до работает ?
сделал show на df и запустил job локально
источник