Телеграмм чат группы hadoopusers страница 1266

22:56пожаловаться #2

2019 May 07

DP

Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо

09:42пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink. - hortonworks-spark/shc

Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо

есть несколько вариантов как их интегрировать, отличаются подходом к сериализациии и работой со схемой, если вам просто для демо и с нуля (в hbase нет данных от других приложений), то попробуйте SHC https://github.com/hortonworks-spark/shc

GitHub

hortonworks-spark/shc

10:53пожаловаться #4

DP

The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink. - hortonworks-spark/shc

Anton Zadorozhniy

есть несколько вариантов как их интегрировать, отличаются подходом к сериализациии и работой со схемой, если вам просто для демо и с нуля (в hbase нет данных от других приложений), то попробуйте SHC https://github.com/hortonworks-spark/shc

GitHub

hortonworks-spark/shc

да там нету данных так как HBase даже не установлен, только в Docker есть рабочий контейнер с HBase, я не вижу в примерах из репозитория сверху как именно делать конект к HBase из Spark, надо разобратся, спасибо.

13:44пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

да там нету данных так как HBase даже не установлен, только в Docker есть рабочий контейнер с HBase, я не вижу в примерах из репозитория сверху как именно делать конект к HBase из Spark, надо разобратся, спасибо.

Через подкладывание конфигов в класспас, или явно как тут (указать путь до конфига) https://github.com/hortonworks-spark/shc/blob/master/examples/src/main/scala/org/apache/spark/sql/execution/datasources/hbase/JoinTablesFrom2Clusters.scala

13:49пожаловаться #6

GP

Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо

можно запускать в контейнере хбейз
я не очень понимаю, что значит ‘подключить’

пока у джобы есть все джарники она будет работать с хбейзом нормально
главная проблема на мой вгляд тут научить хбейз не путать локальный ип, локальный хостнейм и т.п. иначе он может деклайнить все конекты

14:36пожаловаться #7

GG

George Gaál in Data Engineers

Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо

в докере можно

14:38пожаловаться #8

GG

George Gaál in Data Engineers

но как сказали - много нюансов

14:38пожаловаться #9

GP

конект можно делать через код, не надо ничего подсовывать, никакие хмлки с кофингурациями.
можно менять hadoopConfiguration в любом месте кода

14:39пожаловаться #10

GP

org.apache.hadoop.hbase.HBaseConfiguration то что надо
сетится руками кворум, порт и мастер - вот все что надо для конекта к хбейзу

14:39пожаловаться #11

DP

oscar-martin/docker-spark-hbase-yarn

Grigory Pomadchin

можно запускать в контейнере хбейз
я не очень понимаю, что значит ‘подключить’

пока у джобы есть все джарники она будет работать с хбейзом нормально
главная проблема на мой вгляд тут научить хбейз не путать локальный ип, локальный хостнейм и т.п. иначе он может деклайнить все конекты

подключить - я тоже не уверен если тут стандартно, мб я сам себе придумываю а все по другому
Если взять пример с https://github.com/oscar-martin/docker-spark-hbase-yarn
докер запускает HBASE WebApp —> http://dmhadoop:16010/master-status , я думаю что этот путь надо указать в конфигах спарк

GitHub

A dockerized small bigdata cluster to play with. Contribute to oscar-martin/docker-spark-hbase-yarn development by creating an account on GitHub.

14:40пожаловаться #12

GP

можно все в рантайме делать

14:41пожаловаться #13

GP

зачем хардкодить конекты?

14:41пожаловаться #14

GP

а если несолько хбейзов

14:41пожаловаться #15

GP

import org.apache.hadoop.hbase._
import org.apache.hadoop.hbase.client._

val conf = {
  val c = HBaseConfiguration.create
  c.set("hbase.zookeeper.quorum", zookeepers)
  c.set("hbase.zookeeper.property.clientPort", clientPort)
  c.set("hbase.master", master)
  c
}

val connection = ConnectionFactory.createConnection(configuration)

^ ну вон коннекшн будет коннект к хбейзу

14:42пожаловаться #16

DP

http://dmhadoop:16010/master-status

c.set("hbase.zookeeper.quorum", "dmhadoop")
c.set("hbase.zookeeper.property.clientPort", "16010")
c.set("hbase.master", "master-status")

так ?

14:44пожаловаться #17

GP

зукипера адрес нужен там)

14:44пожаловаться #18

GP

а мастер какраз дмхадуп

14:44пожаловаться #19

GP

но только имя должно соотвествовать тому как он (хбейз) себя называет в зукипере