Телеграмм чат группы hadoopusers страница 1413

2019 June 29

GP

Grigory Pomadchin in Data Engineers

можно в ручную перед созданием ссессии нужные конфиги в спарк конф сунуть

источник

16:28пожаловаться #1

2019 June 30

p

panda in Data Engineers

Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо

источник

12:07пожаловаться #2

АЖ

Андрей Жуков in Data Engineers

panda

Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо

Ботай SQL и CS, всегда полезно

источник

13:57пожаловаться #3

D

Dmitriy in Data Engineers

panda

Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо

https://dataintensive.net вот эта книга обязательна к прочтению.

источник

14:00пожаловаться #4

AS

Andrey Smirnov in Data Engineers

Dmitriy

https://dataintensive.net вот эта книга обязательна к прочтению.

книга хорошая, но там мало практики, я бы порекомендовал одну книгу по hadoop например: http://shop.oreilly.com/product/0636920033448.do и одну по спарку например:https://www.manning.com/books/spark-in-action
а дальше уже читать если надо по конкретным продуктам: касcандре или hbase, и т.д.

Oreilly

Hadoop: The Definitive Guide

Get ready to unlock the power of your data. With the fourth edition of this comprehensive guide, you’ll learn how to build and maintain reliable, scalable, distributed systems with Apache Had...

источник

14:14пожаловаться #5

p

panda in Data Engineers

@smirnov_captain Dmitriy @fall_out_bug спасибо за советы

источник

16:53пожаловаться #6

ДД

Дмитрий Демитов in Data Engineers

George Gaál

В логах чего пишет

Сорян что так долго отвечал, был вне зоны доступа 😬

Последняя строчка в stderr



resource_management.core.exceptions.ExecuteTimeoutException: Execution of 'ambari-sudo.sh su yarn-ats -l -s /bin/bash -c 'export  PATH='"'"'/usr/sbin:/sbin:/usr/lib/ambari-server/*:/usr/lib64/qt-3.3/bin:/opt/maven/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin:/var/lib/ambari-agent'"'"' ; sleep 10;export HBASE_CLASSPATH_PREFIX=/usr/hdp/3.1.0.0-78/hadoop-yarn/timelineservice/*; /usr/hdp/3.1.0.0-78/hbase/bin/hbase --config /usr/hdp/3.1.0.0-78/hadoop/conf/embedded-yarn-ats-hbase org.apache.hadoop.yarn.server.timelineservice.storage.TimelineSchemaCreator -Dhbase.client.retries.number=35 -create -s'' was killed due timeout after 300 seconds

источник

22:00пожаловаться #7

2019 July 01

神

神風 in Data Engineers

Привет всем. Возвращаюсь к вам со своей старой проблемой в надежде на вашу помощь. С hbase ранее не доводилось работать. Стоит задача вкатить 4 млрд записей из паркетников спарком в hbase. Затем по rowkey будет работать фильтр. Задача #1 - вкатить от раза к разу проходит с переменным успехом, часто отваливаются region сервера, тк замечаю, что все таски или большинство на текущих экзекуторах сосредоточены на одном регион сервере. Отваливается по oom. Сам ключ - это конкатенация 6 строк. Итоговое кол-во регионов в случае удачной заливки от 72 до 114 (иногда расширяем ключ) . Region серверов 15.

источник

09:13пожаловаться #8

GG

George Gaál in Data Engineers

> Отваливается по oom.
ты саму джаву настраивал? ООМ приходит линуксовый или ты так назвал аут ов мемори в самой джаве?

источник

09:15пожаловаться #9

神

神風 in Data Engineers

George Gaál

> Отваливается по oom.
ты саму джаву настраивал? ООМ приходит линуксовый или ты так назвал аут ов мемори в самой джаве?

Heap кончается. Накручиваю, уже 15 гб.

источник

09:15пожаловаться #10

GG

George Gaál in Data Engineers

у нас регион сервер тоже колбасило, когда в него вливалась куча данных... решилось тремя вещами - лить все-таки данные более равномерно, мониторинг в прометеусе через jmx_exporter, чтобы видеть, что за факамаза происходит, и увеличить памяти...

источник

09:16пожаловаться #11

神

神風 in Data Engineers

Ещё нубский вопрос. Положим у нас точка 0, есть уйма записей, таблица пустая. Как hbase понимает сколько регионов нужно и в какой нужно писать текущую запись?

источник

09:19пожаловаться #12

GG

George Gaál in Data Engineers

https://stackoverflow.com/questions/18719042/hbase-how-put-get-knows-which-region-server-to-write-to

Stack Overflow

HBase: how put/get knows which region server to write to?

In HBase, how the put/get operations know which region server the row should be written to?
In case of multiple rows to be read how multiple region servers are contacted and the results are retrieved?

источник

09:25пожаловаться #13

A

Alex in Data Engineers

таблица пустая и не разбита?

источник

09:26пожаловаться #14

A

Alex in Data Engineers

если знаешь алгоритм то почему на создании сразу не создать нужные регионы?

источник

09:26пожаловаться #15

GK

Georgii Kolpakov in Data Engineers

神風

Ещё нубский вопрос. Положим у нас точка 0, есть уйма записей, таблица пустая. Как hbase понимает сколько регионов нужно и в какой нужно писать текущую запись?

Никак, если не указал регионов при создании таблицы, будет просто по ходу записи сплитить. Если для вас запись больших(относительно вашего кластера) регионов - частая(или больная) задача, советую глянуть в сторону предварительной подготовки HFile'ов, так снимите нагрузку с HBase и перенесете её на spark: https://medium.com/hashmapinc/3-steps-for-bulk-loading-1m-records-in-20-seconds-into-apache-phoenix-99b77ad87387

Medium

3 Steps for Bulk Loading 1M Records in 20 Seconds Into Apache Phoenix

Using Apache Spark for High Performance Data Loading into Apache Phoenix/HBase