Size: a a a

2019 May 06

EV

Eduard Vlasov in Data Engineers
источник

ЕГ

Евгений Глотов in Data Engineers
Планированием не я занимался)
источник
2019 May 07

DP

Dumitru Preguza in Data Engineers
Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Dumitru Preguza
Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо
есть несколько вариантов как их интегрировать, отличаются подходом к сериализациии и работой со схемой, если вам просто для демо и с нуля (в hbase нет данных от других приложений), то попробуйте SHC https://github.com/hortonworks-spark/shc
источник

DP

Dumitru Preguza in Data Engineers
Anton Zadorozhniy
есть несколько вариантов как их интегрировать, отличаются подходом к сериализациии и работой со схемой, если вам просто для демо и с нуля (в hbase нет данных от других приложений), то попробуйте SHC https://github.com/hortonworks-spark/shc
да там нету данных так как HBase даже не установлен, только в Docker есть рабочий контейнер с HBase, я не вижу в примерах из репозитория сверху как именно делать конект к HBase из Spark, надо разобратся, спасибо.
источник

AZ

Anton Zadorozhniy in Data Engineers
Dumitru Preguza
да там нету данных так как HBase даже не установлен, только в Docker есть рабочий контейнер с HBase, я не вижу в примерах из репозитория сверху как именно делать конект к HBase из Spark, надо разобратся, спасибо.
Через подкладывание конфигов в класспас, или явно как тут (указать путь до конфига) https://github.com/hortonworks-spark/shc/blob/master/examples/src/main/scala/org/apache/spark/sql/execution/datasources/hbase/JoinTablesFrom2Clusters.scala
источник

GP

Grigory Pomadchin in Data Engineers
Dumitru Preguza
Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо
можно запускать в контейнере хбейз
я не очень понимаю, что значит ‘подключить’

пока у джобы есть все джарники она будет работать с хбейзом нормально
главная проблема на мой вгляд тут научить хбейз не путать локальный ип, локальный хостнейм и т.п. иначе он может деклайнить все конекты
источник

GG

George Gaál in Data Engineers
Dumitru Preguza
Привет всем, как подключить HBase к Apacher Spark (v 2.3.0 ), Scala v 2.11.8 ?
Возможно ли запускать HBase в докер контейнере тк. так легче, и подключить её к проекту с Spark ? (нужно сделать стартовый рабочий проект для тестов)
буду рад любой помощи, спасибо
в докере можно
источник

GG

George Gaál in Data Engineers
но как сказали - много нюансов
источник

GP

Grigory Pomadchin in Data Engineers
конект можно делать через код, не надо ничего подсовывать, никакие хмлки с кофингурациями.
можно менять hadoopConfiguration в любом месте кода
источник

GP

Grigory Pomadchin in Data Engineers
org.apache.hadoop.hbase.HBaseConfiguration то что надо
сетится руками кворум, порт и мастер - вот все что надо для конекта к хбейзу
источник

DP

Dumitru Preguza in Data Engineers
Grigory Pomadchin
можно запускать в контейнере хбейз
я не очень понимаю, что значит ‘подключить’

пока у джобы есть все джарники она будет работать с хбейзом нормально
главная проблема на мой вгляд тут научить хбейз не путать локальный ип, локальный хостнейм и т.п. иначе он может деклайнить все конекты
подключить - я тоже не уверен если тут стандартно, мб я сам себе придумываю а все по другому
Если взять пример с https://github.com/oscar-martin/docker-spark-hbase-yarn
докер запускает HBASE WebApp —> http://dmhadoop:16010/master-status , я думаю что этот путь надо указать в конфигах спарк
источник

GP

Grigory Pomadchin in Data Engineers
можно все в рантайме делать
источник

GP

Grigory Pomadchin in Data Engineers
зачем хардкодить конекты?
источник

GP

Grigory Pomadchin in Data Engineers
а если несолько хбейзов
источник

GP

Grigory Pomadchin in Data Engineers
import org.apache.hadoop.hbase._
import org.apache.hadoop.hbase.client._

val conf = {
 val c = HBaseConfiguration.create
 c.set("hbase.zookeeper.quorum", zookeepers)
 c.set("hbase.zookeeper.property.clientPort", clientPort)
 c.set("hbase.master", master)
 c
}

val connection = ConnectionFactory.createConnection(configuration)


^ ну вон коннекшн будет коннект к хбейзу
источник

DP

Dumitru Preguza in Data Engineers
http://dmhadoop:16010/master-status

c.set("hbase.zookeeper.quorum", "dmhadoop")
 c.set("hbase.zookeeper.property.clientPort", "16010")
 c.set("hbase.master", "master-status")

так ?
источник

GP

Grigory Pomadchin in Data Engineers
зукипера адрес нужен там)
источник

GP

Grigory Pomadchin in Data Engineers
а мастер какраз дмхадуп
источник

GP

Grigory Pomadchin in Data Engineers
но только имя должно соотвествовать тому как он (хбейз) себя называет в зукипере
источник