Size: a a a

2019 June 29

GP

Grigory Pomadchin in Data Engineers
можно в ручную перед созданием ссессии нужные конфиги в спарк конф сунуть
источник
2019 June 30

p

panda in Data Engineers
Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо
источник

АЖ

Андрей Жуков in Data Engineers
panda
Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо
Ботай SQL и CS,  всегда полезно
источник

D

Dmitriy in Data Engineers
panda
Добрый день! Хочу развиваться в big data, data engineering. Прихожу курс на курсере от BigData: big data essentials, hdfs,map reduce,spark. Подскажите книги, курсы, сертификацию для дальнейшего развития. Спасибо
https://dataintensive.net вот эта книга обязательна к прочтению.
источник

AS

Andrey Smirnov in Data Engineers
Dmitriy
https://dataintensive.net вот эта книга обязательна к прочтению.
книга хорошая, но там мало практики, я бы порекомендовал одну книгу по  hadoop например: http://shop.oreilly.com/product/0636920033448.do и одну по спарку например:https://www.manning.com/books/spark-in-action
а дальше уже читать если надо по конкретным продуктам: касcандре или hbase, и т.д.
источник

p

panda in Data Engineers
@smirnov_captain  Dmitriy @fall_out_bug  спасибо за советы
источник

ДД

Дмитрий Демитов in Data Engineers
George Gaál
В логах чего пишет
Сорян что так долго отвечал, был вне зоны доступа 😬

Последняя строчка в stderr

resource_management.core.exceptions.ExecuteTimeoutException: Execution of 'ambari-sudo.sh su yarn-ats -l -s /bin/bash -c 'export  PATH='"'"'/usr/sbin:/sbin:/usr/lib/ambari-server/*:/usr/lib64/qt-3.3/bin:/opt/maven/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin:/var/lib/ambari-agent'"'"' ; sleep 10;export HBASE_CLASSPATH_PREFIX=/usr/hdp/3.1.0.0-78/hadoop-yarn/timelineservice/*; /usr/hdp/3.1.0.0-78/hbase/bin/hbase --config /usr/hdp/3.1.0.0-78/hadoop/conf/embedded-yarn-ats-hbase org.apache.hadoop.yarn.server.timelineservice.storage.TimelineSchemaCreator -Dhbase.client.retries.number=35 -create -s'' was killed due timeout after 300 seconds
источник
2019 July 01

神風 in Data Engineers
Привет всем. Возвращаюсь к вам со своей старой проблемой в надежде на вашу помощь. С hbase ранее не доводилось работать. Стоит задача вкатить 4 млрд записей из паркетников спарком в hbase. Затем по rowkey будет работать фильтр. Задача #1 - вкатить от раза к разу проходит с переменным успехом, часто отваливаются region сервера, тк замечаю, что все таски или большинство на текущих экзекуторах сосредоточены на одном регион сервере. Отваливается по oom. Сам ключ - это конкатенация 6 строк. Итоговое кол-во регионов в случае удачной заливки от 72 до 114 (иногда расширяем ключ) . Region серверов 15.
источник

GG

George Gaál in Data Engineers
> Отваливается по oom.
ты саму джаву настраивал? ООМ приходит линуксовый или ты так назвал аут ов мемори в самой джаве?
источник

神風 in Data Engineers
George Gaál
> Отваливается по oom.
ты саму джаву настраивал? ООМ приходит линуксовый или ты так назвал аут ов мемори в самой джаве?
Heap кончается. Накручиваю, уже 15 гб.
источник

GG

George Gaál in Data Engineers
у нас регион сервер тоже колбасило, когда в него вливалась куча данных... решилось тремя вещами - лить все-таки данные более равномерно, мониторинг в прометеусе через jmx_exporter, чтобы видеть, что за факамаза происходит, и увеличить памяти...
источник

神風 in Data Engineers
Ещё нубский вопрос. Положим у нас точка 0, есть уйма записей, таблица пустая. Как hbase понимает сколько регионов нужно и в какой нужно писать текущую запись?
источник

GG

George Gaál in Data Engineers
источник

A

Alex in Data Engineers
таблица пустая и не разбита?
источник

A

Alex in Data Engineers
если знаешь алгоритм то почему на создании сразу не создать нужные регионы?
источник

GK

Georgii Kolpakov in Data Engineers
神風
Ещё нубский вопрос. Положим у нас точка 0, есть уйма записей, таблица пустая. Как hbase понимает сколько регионов нужно и в какой нужно писать текущую запись?
Никак, если не указал регионов при создании таблицы, будет просто по ходу записи сплитить. Если для вас запись больших(относительно вашего кластера) регионов - частая(или больная) задача, советую глянуть в сторону предварительной подготовки HFile'ов, так снимите нагрузку с HBase и перенесете её на spark: https://medium.com/hashmapinc/3-steps-for-bulk-loading-1m-records-in-20-seconds-into-apache-phoenix-99b77ad87387
источник

A

Alex in Data Engineers
типо я знаю что при удачном будет 100 штук с примерно таким распределением
ну и создаешь таблицу сразу со 100 регионама и нужными границами
источник

A

Alex in Data Engineers
если не указал, то это будет делаться в рантайме под нагрузкой и не очень весело
источник

A

Alex in Data Engineers
особенно на начале, когда всё влетит в 1 регион
источник

神風 in Data Engineers
Alex
таблица пустая и не разбита?
Пустая, неразбитая
источник