Size: a a a

2020 March 24

K

KrivdaTheTriewe in Data Engineers
не
источник

DZ

Dmitry Zuev in Data Engineers
Кривда вылезает из хадупа
источник
2020 March 25

PR

Pavel R in Data Engineers
А подскажите, вот есть кластер cloudera хадуп, и при определённом количество джобов в узях, они начинают дико медленно работать, растёт очередь и всё такое. В какую сторону стоит копать? Не получается найти нигде инфу как определять "потолок" производительности узей.
источник

R

Roman in Data Engineers
Dmitry Zuev
Я б не стал сейчас в хадуп лезть
Все зависит от контекста. В России и около странах минио + кубер + спарк. И не думаю, что в ближайшую пару лет сильно изменится ситуация.
Свое мнение я строю на основе спроса на рынке труда и информации об устройстве стека Bigdata во многих крупных компаниях Москвы.
источник

R

Roman in Data Engineers
Pavel R
А подскажите, вот есть кластер cloudera хадуп, и при определённом количество джобов в узях, они начинают дико медленно работать, растёт очередь и всё такое. В какую сторону стоит копать? Не получается найти нигде инфу как определять "потолок" производительности узей.
Как бы очередей в oozie нет, скорее всего упираетесь в ресурсы кластера.
Ещё бывает кейс, когда одновременно стартует очень много oozie тасков, и количество ресурсов , которое занимают application Masterа этих тасков, отъедает много ресурсов кластера, что может приводить к некоторой деградации. Но такое может быть, когда у вас не очень большой кластер, а на am выделено много ресурсов.
источник

PR

Pavel R in Data Engineers
Roman
Как бы очередей в oozie нет, скорее всего упираетесь в ресурсы кластера.
Ещё бывает кейс, когда одновременно стартует очень много oozie тасков, и количество ресурсов , которое занимают application Masterа этих тасков, отъедает много ресурсов кластера, что может приводить к некоторой деградации. Но такое может быть, когда у вас не очень большой кластер, а на am выделено много ресурсов.
Растёт параметр callable queue size.  В очереди в ярне ресурсов сильно больше, чем потребляют запускаемые джобы. И пока callable queue size не уходит ниже ~3000, даже тестовая джоба, запущенная в очереди, где есть ресурсы, может висеть минут 5-10.
источник

R

Roman in Data Engineers
Pavel R
Растёт параметр callable queue size.  В очереди в ярне ресурсов сильно больше, чем потребляют запускаемые джобы. И пока callable queue size не уходит ниже ~3000, даже тестовая джоба, запущенная в очереди, где есть ресурсы, может висеть минут 5-10.
Типа в статусе prepare висят таски?

Если так, то можешь попробовать потюнить oozie.service.callablequeueservice.queue.size
oozie.service.callablequeueservice.threads

У меня была недавно такая проблема, в итоге я списал все на то, что у меня oozie не привязан к внешней базе данных.
источник

АБ

Алексей Быстрый in Data Engineers
Я возможно оффтоп.
Пытаюсь сообразить каунтеры.
Юзеры делают какие то действия. Потом нужно апи которое будет всегда возвращать реальные данные счётчиков действий.
Сам факт события я бы не хранил. Первое что пришло в голову это mysql какой то и табличка со счётчиками. Один счётчик на событие и юзера. Инсерт ор апдейт.
Но мне кажется есть и другой вариант. Редису не доверяю. Хотя с ним все было бы проще.
источник

DM

David Manukian in Data Engineers
Добрый день, никто не сталкивался с тем, как в apache beam sql делать что-то типа explode/unnest. Я как понимаю сам по себе unnest beam sql не поддерживает в диалекте Calcite. Неужели никак array нельзя на уровне sql разбить?
источник

AZ

Anton Zadorozhniy in Data Engineers
David Manukian
Добрый день, никто не сталкивался с тем, как в apache beam sql делать что-то типа explode/unnest. Я как понимаю сам по себе unnest beam sql не поддерживает в диалекте Calcite. Неужели никак array нельзя на уровне sql разбить?
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Быстрый
Я возможно оффтоп.
Пытаюсь сообразить каунтеры.
Юзеры делают какие то действия. Потом нужно апи которое будет всегда возвращать реальные данные счётчиков действий.
Сам факт события я бы не хранил. Первое что пришло в голову это mysql какой то и табличка со счётчиками. Один счётчик на событие и юзера. Инсерт ор апдейт.
Но мне кажется есть и другой вариант. Редису не доверяю. Хотя с ним все было бы проще.
да можно на любом движке сделать, если у вас много писателей то будет нужен атомарный инкремент счетчика (есть во многих СУБД)
источник

АБ

Алексей Быстрый in Data Engineers
Anton Zadorozhniy
да можно на любом движке сделать, если у вас много писателей то будет нужен атомарный инкремент счетчика (есть во многих СУБД)
Что то типа tsdb не подойдёт же?
источник

DM

David Manukian in Data Engineers
@dartov спасибо, я этот вариант тоже рассматриваю если подтвердится что действительно никак нельзя разбить)
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Быстрый
Что то типа tsdb не подойдёт же?
все зависит от числа пользователей и нагрузки, для маленького числа пользователей наверное можно сделать и во временных рядах (каждый пользователь это отдельная метрика)
источник

АБ

Алексей Быстрый in Data Engineers
Anton Zadorozhniy
все зависит от числа пользователей и нагрузки, для маленького числа пользователей наверное можно сделать и во временных рядах (каждый пользователь это отдельная метрика)
Около 5млн
источник

AZ

Anton Zadorozhniy in Data Engineers
это такой простой кусочек логики что я бы сделал на том что есть сейчас и для текущих показателей нагрузки, это всегда можно переделать
источник

АБ

Алексей Быстрый in Data Engineers
Anton Zadorozhniy
это такой простой кусочек логики что я бы сделал на том что есть сейчас и для текущих показателей нагрузки, это всегда можно переделать
Вот я тоже думаю что городить дополнительный стек ради пары счётчиков не очень эффективно
источник

DM

David Manukian in Data Engineers
@dartov Unnest это же UDTF, а я не уверен кстати что apache beam поддерживает UDTF
источник

AZ

Anton Zadorozhniy in Data Engineers
David Manukian
@dartov Unnest это же UDTF, а я не уверен кстати что apache beam поддерживает UDTF
не поддерживает, только агрегаты и скаляры
источник

DM

David Manukian in Data Engineers
@dartov выходит так, что unnest/explode невозможно сделать в beam sql?
источник