Size: a a a

2019 September 12

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Кто то пробовал мигрировать HBase с on premise в cloud без downtime? Какую стратегию миграции лучше выбрать?
а если не секрет, какую архитектуру hbase в облаке вы выбрали?
источник

YE

Yury Egorov in Data Engineers
Grigory Pomadchin
и базовые знания работы с жпу + немного куды.
а ml нужно?
источник

Ж

Жмака in Data Engineers
Anton Zadorozhniy
а если не секрет, какую архитектуру hbase в облаке вы выбрали?
AWS EMR на S3
источник

Ж

Жмака in Data Engineers
Пока думаю о репликации или снэпшотах с mr джобом
источник

RI

Rustam Iksanov in Data Engineers
инженеры! Есть спарк стриминг джоба, которая читает из кафки. Столкнулся с тем, что чтение происходит и запускается процесс. А по ходу выполнения  происходит чтение паркета, на котором ловится NPE. Перепроверил через spark-shell и zeppelin чтение из паркета нигде не вызвало проблем. В чем может еще ошибка?
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
AWS EMR на S3
угу, спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Пока думаю о репликации или снэпшотах с mr джобом
я делал не раз просто многокластерный сэтап, и в этом смысле кмк разницы между он-премом и клаудом нет, потенциальная разница в версиях мб проблемой, а так логика такая же: вы делаете репликацию, и в своем СДК (то во что вы заворачиваете клиент хбейс для ваших приложений) командуете синк и ожидание переключения через сервис дискавери
источник

AZ

Anton Zadorozhniy in Data Engineers
условно вы сейчас же живете как-то на несколько кластеров, если у вас требование «без даунтайм» есть? вот просто расширить этот инструментарий на облачные хбейсы
источник

Ж

Жмака in Data Engineers
Anton Zadorozhniy
условно вы сейчас же живете как-то на несколько кластеров, если у вас требование «без даунтайм» есть? вот просто расширить этот инструментарий на облачные хбейсы
Да, есть read replica во втором кластере. Разница будет в версиях, потому что в emr minor внрсия новее
источник

Ж

Жмака in Data Engineers
Но репликация не переносит старые данные вроде.
источник

Ж

Жмака in Data Engineers
То есть надо как то заснепшотить и заресторить, но насколько я помню проблема в снэпшотах может быть тоже в версиях hbase.
источник
2019 September 13

AC

Alexander Chermenin in Data Engineers
Rustam Iksanov
инженеры! Есть спарк стриминг джоба, которая читает из кафки. Столкнулся с тем, что чтение происходит и запускается процесс. А по ходу выполнения  происходит чтение паркета, на котором ловится NPE. Перепроверил через spark-shell и zeppelin чтение из паркета нигде не вызвало проблем. В чем может еще ошибка?
Стектрейс бы неплохо увидеть
источник

RI

Rustam Iksanov in Data Engineers
Alexander Chermenin
Стектрейс бы неплохо увидеть
Чуть позже, если понадобится. Я кажется, смог найти проблему. У меня DStream[case class] после чтения из кафки. Я на нем вызываю foreachRDD{rdd => if(!red.isEmpty)
rdd.foreach(f: A => unit)
}
Внутри f есть использование sparkSession для чтения паркетов. Кажется этот момент вызывает NPE
источник

A

Alexey in Data Engineers
источник

RI

Rustam Iksanov in Data Engineers
Alexander Chermenin
Стектрейс бы неплохо увидеть
java.lang.NullPointerException
       at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:143)
       at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:141)
       at org.apache.spark.sql.DataFrameReader.<init>(DataFrameReader.scala:764)
       at org.apache.spark.sql.SparkSession.read(SparkSession.scala:655)
       at ru.model.HelperFunctions$.generateRow(HelperFunctions.scala:203)
источник

ПФ

Паша Финкельштейн in Data Engineers
Rustam Iksanov
java.lang.NullPointerException
       at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:143)
       at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:141)
       at org.apache.spark.sql.DataFrameReader.<init>(DataFrameReader.scala:764)
       at org.apache.spark.sql.SparkSession.read(SparkSession.scala:655)
       at ru.model.HelperFunctions$.generateRow(HelperFunctions.scala:203)
А версия спарка?
источник

RI

Rustam Iksanov in Data Engineers
Паша Финкельштейн
А версия спарка?
2.3.2.3.1.0.0-78
источник

ПФ

Паша Финкельштейн in Data Engineers
Впрочем неважно. По исходникам видно что parentSessionState почему-то null
источник

ПФ

Паша Финкельштейн in Data Engineers
источник

ПФ

Паша Финкельштейн in Data Engineers
Вообще looks buggy for me
источник