Size: a a a

2019 September 27

神風 in Data Engineers
Переправил yarn.nodemanager.local-dirs распихав по дискам выданным в hdfs
источник

t

tenKe in Data Engineers
очереди еще смотри, но это вероятно проблема ярна
источник

神風 in Data Engineers
Падать перестал
источник

t

tenKe in Data Engineers
он решает где спарку контейнеры разворачивать
источник

神風 in Data Engineers
tenKe
очереди еще смотри, но это вероятно проблема ярна
Это не проблема, судя по тому что на топикопартицию выдаётся ядро, но не экзекутор. Похоже это by disign
источник

t

tenKe in Data Engineers
не
источник

t

tenKe in Data Engineers
там бывает, что партиции неровно к воркерам прибиваются, это да
источник

t

tenKe in Data Engineers
это лечится изменением количества воркеров/партиций в топике или .repartition перед работой с данными
источник

t

tenKe in Data Engineers
но если воркеры тусят на одной ноде, это не проблема спарка
источник

S

Stanislav in Data Engineers
神風
Переправил yarn.nodemanager.local-dirs распихав по дискам выданным в hdfs
аккуратно с этим
при уменьшении количества свободного места до 10% ярна встанет
а для хдфса вроде и норм быть настолько заполненным
источник

神風 in Data Engineers
Ещё момент, почему то на топике с "толстыми" записями trigger 1 minutes не работает нифига. Вот уже 11 минут пашет. На hdfs тишина.
источник

t

tenKe in Data Engineers
神風
Ещё момент, почему то на топике с "толстыми" записями trigger 1 minutes не работает нифига. Вот уже 11 минут пашет. На hdfs тишина.
триггер к размеру записей не имеет отношения (это вещи из разных миров в спарке).
источник

神風 in Data Engineers
tenKe
триггер к размеру записей не имеет отношения (это вещи из разных миров в спарке).
Это повод записать в папку назначения. Но вот наблюдаю я это поведение именно на топике с жирными записями.
источник

t

tenKe in Data Engineers
не, триггер всего лишь запускает функцию getBatch, когда getOffset возвращает не None
источник

t

tenKe in Data Engineers
источник

t

tenKe in Data Engineers
в папку назначения пишет sink
источник

OP

O. Petr in Data Engineers
на сколько сложно секурность поднять спарк - хбейз ?
источник

EN

Eldar Nezametdinov in Data Engineers
Дата инженеры. Есть вопрос нуба про HBase splitting, region servers.
Есть 40 машин. Есть rowkey (похож на YYYY-MM-DD+дополнительные параметры).
Создал таблицу, и вижу что он пишет только в 2 table regiona и они оба на одном region server???
Хотя всего 40 машин и на каждой по регионсерверу ...
Что пошло не так?
Надо было SALTED 40 поставить?
источник

神風 in Data Engineers
Eldar Nezametdinov
Дата инженеры. Есть вопрос нуба про HBase splitting, region servers.
Есть 40 машин. Есть rowkey (похож на YYYY-MM-DD+дополнительные параметры).
Создал таблицу, и вижу что он пишет только в 2 table regiona и они оба на одном region server???
Хотя всего 40 машин и на каждой по регионсерверу ...
Что пошло не так?
Надо было SALTED 40 поставить?
Сделай presplit
источник

神風 in Data Engineers
Он в твоём варианте по дефолту пишет в один регион сервер, потом сплитит.
источник