Телеграмм чат группы hadoopusers страница 2179

23:51пожаловаться #1

DZ

Dmitry Zuev in Data Engineers

Кривда вылезает из хадупа

23:53пожаловаться #2

2020 March 25

PR

Pavel R in Data Engineers

А подскажите, вот есть кластер cloudera хадуп, и при определённом количество джобов в узях, они начинают дико медленно работать, растёт очередь и всё такое. В какую сторону стоит копать? Не получается найти нигде инфу как определять "потолок" производительности узей.

08:40пожаловаться #3

R

Roman in Data Engineers

Dmitry Zuev

Я б не стал сейчас в хадуп лезть

Все зависит от контекста. В России и около странах минио + кубер + спарк. И не думаю, что в ближайшую пару лет сильно изменится ситуация.
Свое мнение я строю на основе спроса на рынке труда и информации об устройстве стека Bigdata во многих крупных компаниях Москвы.

08:54пожаловаться #4

R

Roman in Data Engineers

Pavel R

А подскажите, вот есть кластер cloudera хадуп, и при определённом количество джобов в узях, они начинают дико медленно работать, растёт очередь и всё такое. В какую сторону стоит копать? Не получается найти нигде инфу как определять "потолок" производительности узей.

Как бы очередей в oozie нет, скорее всего упираетесь в ресурсы кластера.
Ещё бывает кейс, когда одновременно стартует очень много oozie тасков, и количество ресурсов , которое занимают application Masterа этих тасков, отъедает много ресурсов кластера, что может приводить к некоторой деградации. Но такое может быть, когда у вас не очень большой кластер, а на am выделено много ресурсов.

08:57пожаловаться #5

PR

Pavel R in Data Engineers

Roman

Как бы очередей в oozie нет, скорее всего упираетесь в ресурсы кластера.
Ещё бывает кейс, когда одновременно стартует очень много oozie тасков, и количество ресурсов , которое занимают application Masterа этих тасков, отъедает много ресурсов кластера, что может приводить к некоторой деградации. Но такое может быть, когда у вас не очень большой кластер, а на am выделено много ресурсов.

Растёт параметр callable queue size. В очереди в ярне ресурсов сильно больше, чем потребляют запускаемые джобы. И пока callable queue size не уходит ниже ~3000, даже тестовая джоба, запущенная в очереди, где есть ресурсы, может висеть минут 5-10.

09:07пожаловаться #6

R

Roman in Data Engineers

Pavel R

Растёт параметр callable queue size. В очереди в ярне ресурсов сильно больше, чем потребляют запускаемые джобы. И пока callable queue size не уходит ниже ~3000, даже тестовая джоба, запущенная в очереди, где есть ресурсы, может висеть минут 5-10.

Типа в статусе prepare висят таски?

Если так, то можешь попробовать потюнить oozie.service.callablequeueservice.queue.size
oozie.service.callablequeueservice.threads

У меня была недавно такая проблема, в итоге я списал все на то, что у меня oozie не привязан к внешней базе данных.

09:12пожаловаться #7

АБ

Я возможно оффтоп.
Пытаюсь сообразить каунтеры.
Юзеры делают какие то действия. Потом нужно апи которое будет всегда возвращать реальные данные счётчиков действий.
Сам факт события я бы не хранил. Первое что пришло в голову это mysql какой то и табличка со счётчиками. Один счётчик на событие и юзера. Инсерт ор апдейт.
Но мне кажется есть и другой вариант. Редису не доверяю. Хотя с ним все было бы проще.

11:16пожаловаться #8

DM

Добрый день, никто не сталкивался с тем, как в apache beam sql делать что-то типа explode/unnest. Я как понимаю сам по себе unnest beam sql не поддерживает в диалекте Calcite. Неужели никак array нельзя на уровне sql разбить?

11:19пожаловаться #9

AZ

Beam SQL extensions: User-defined functions

David Manukian

Добрый день, никто не сталкивался с тем, как в apache beam sql делать что-то типа explode/unnest. Я как понимаю сам по себе unnest beam sql не поддерживает в диалекте Calcite. Неужели никак array нельзя на уровне sql разбить?

через UDF попробуйте сделать https://beam.apache.org/documentation/dsls/sql/extensions/user-defined-functions/

beam.apache.org

Apache Beam is an open source, unified model and set of language-specific SDKs for defining and executing data processing workflows, and also data ingestion and integration flows, supporting Enterprise Integration Patterns (EIPs) and Domain Specific Languages (DSLs). Dataflow pipelines simplify the mechanics of large-scale batch and streaming data processing and can run on a number of runtimes like Apache Flink, Apache Spark, and Google Cloud Dataflow (a cloud service). Beam also brings DSL in different languages, allowing users to easily implement their data integration processes.

11:26пожаловаться #10

AZ

Алексей Быстрый

Я возможно оффтоп.
Пытаюсь сообразить каунтеры.
Юзеры делают какие то действия. Потом нужно апи которое будет всегда возвращать реальные данные счётчиков действий.
Сам факт события я бы не хранил. Первое что пришло в голову это mysql какой то и табличка со счётчиками. Один счётчик на событие и юзера. Инсерт ор апдейт.
Но мне кажется есть и другой вариант. Редису не доверяю. Хотя с ним все было бы проще.

да можно на любом движке сделать, если у вас много писателей то будет нужен атомарный инкремент счетчика (есть во многих СУБД)

11:28пожаловаться #11

АБ

Anton Zadorozhniy

да можно на любом движке сделать, если у вас много писателей то будет нужен атомарный инкремент счетчика (есть во многих СУБД)

Что то типа tsdb не подойдёт же?

11:28пожаловаться #12

DM

@dartov спасибо, я этот вариант тоже рассматриваю если подтвердится что действительно никак нельзя разбить)

11:30пожаловаться #13

AZ

Алексей Быстрый

Что то типа tsdb не подойдёт же?

все зависит от числа пользователей и нагрузки, для маленького числа пользователей наверное можно сделать и во временных рядах (каждый пользователь это отдельная метрика)

11:31пожаловаться #14

АБ

Anton Zadorozhniy

все зависит от числа пользователей и нагрузки, для маленького числа пользователей наверное можно сделать и во временных рядах (каждый пользователь это отдельная метрика)

Около 5млн

11:32пожаловаться #15

AZ

это такой простой кусочек логики что я бы сделал на том что есть сейчас и для текущих показателей нагрузки, это всегда можно переделать

11:32пожаловаться #16

АБ

Anton Zadorozhniy

это такой простой кусочек логики что я бы сделал на том что есть сейчас и для текущих показателей нагрузки, это всегда можно переделать

Вот я тоже думаю что городить дополнительный стек ради пары счётчиков не очень эффективно

11:33пожаловаться #17

DM

@dartov Unnest это же UDTF, а я не уверен кстати что apache beam поддерживает UDTF

11:59пожаловаться #18

AZ

David Manukian

@dartov Unnest это же UDTF, а я не уверен кстати что apache beam поддерживает UDTF

не поддерживает, только агрегаты и скаляры

12:01пожаловаться #19

DM

@dartov выходит так, что unnest/explode невозможно сделать в beam sql?