Size: a a a

2020 October 28

AB

Alexander Batyrshin in Data Engineers
Формально они там в master комитят, но новую версию так и не выпустили. Причем 5-ка была под 2.0 который уже устарел )
источник

AB

Alexander Batyrshin in Data Engineers
Stanislav
Ага, сразу после релиза наступила тишина. Зачем релиз был - непонятно. Для красивых циферок в хдп3 что-ли
Основная идея была релизнуться для HBase-2. Но HBase-2 не особо в фаворе, многие на 1.2 до сих пор сидят и не особо планируют обновляться
источник

S

Stanislav in Data Engineers
Alexander Batyrshin
Формально они там в master комитят, но новую версию так и не выпустили. Причем 5-ка была под 2.0 который уже устарел )
Не знал, спасибо. То есть можно глянуть, может есть фиксы, которые нужны. Собирать только не хочется :(
источник

AB

Alexander Batyrshin in Data Engineers
В мастер много чего нового уже влили. Включая консистентные индексы и прочее
источник

SS

Sergey Sheremeta in Data Engineers
Stanislav
Не знал, спасибо. То есть можно глянуть, может есть фиксы, которые нужны. Собирать только не хочется :(
источник

AB

Alexander Batyrshin in Data Engineers
Вроде даже поддержку HBase-2.2 комитили
источник

S

Stanislav in Data Engineers
Спасибо
источник

AS

Andrey Smirnov in Data Engineers
Sergey Sheremeta
а чего тут так тихо?

не желаете поговорить об HBase?
как из него выGETывать большие пачки данных из Spark?
"угадываем" по ключу region server, группируем ключи, читаем
источник

AB

Alexander Batyrshin in Data Engineers
Andrey Smirnov
"угадываем" по ключу region server, группируем ключи, читаем
А это все делает HBase client
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а чего тут так тихо?

не желаете поговорить об HBase?
как из него выGETывать большие пачки данных из Spark?
так же как и небольшие пачки, get или scan
источник

AZ

Anton Zadorozhniy in Data Engineers
ну мб какой-то пушдаун на копроцессорах
источник

AS

Andrey Smirnov in Data Engineers
Alexander Batyrshin
А это все делает HBase client
а как вы его из спарка используете?
источник

AB

Alexander Batyrshin in Data Engineers
Andrey Smirnov
а как вы его из спарка используете?
У Сережи там HBase Connector используется. Он сплитит как раз по регионом, потому я думаю что HBase Client (которые в конекторе используется) даже ничего особо группировать и не нужно
источник

AZ

Anton Zadorozhniy in Data Engineers
hbase connector это тоже самое что org.apache.spark.sql.execution.datasources.hbase ?
источник

AS

Andrey Smirnov in Data Engineers
Alexander Batyrshin
У Сережи там HBase Connector используется. Он сплитит как раз по регионом, потому я думаю что HBase Client (которые в конекторе используется) даже ничего особо группировать и не нужно
группируем я имел ввиду кастомное парционирование
источник

AB

Alexander Batyrshin in Data Engineers
@ssheremeta тут уже к тебе вопросы про наш датасорус HBase
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
hbase connector это тоже самое что org.apache.spark.sql.execution.datasources.hbase ?
вот да, какой именно коннектор? @ox62ash
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще кмк если есть прям большой спарковый ворклоад поверх данных hbase - мб куда-то еще эти данные писать, а то производительность это полбеды, есть же еще вопросы целостности, модели, изоляции
источник

SS

Sergey Sheremeta in Data Engineers
а я сейчас даже без spark-hbase коннектора, голым HBase Client API пытаюсь сделать мульти-гет
источник

AZ

Anton Zadorozhniy in Data Engineers
а это спарк стриминг, у вас лукапы просто, или батч?
источник