Size: a a a

2020 February 06

O

Oleg in Data Engineers
Ситуация: в компании развернули pentaho kettle , которая standalone версия, ходят по нему через rdp, напили уйму джобов и теперь решение уже не справляется, на что можно перевести эти джобы, желательно опенсорс, free ware? Кроме airflow
источник

DO

Dmitry Oxxzz in Data Engineers
Oleg
Ситуация: в компании развернули pentaho kettle , которая standalone версия, ходят по нему через rdp, напили уйму джобов и теперь решение уже не справляется, на что можно перевести эти джобы, желательно опенсорс, free ware? Кроме airflow
А чем плох Airflow? Просто любопытно.
источник

O

Oleg in Data Engineers
Нужна команда полноценных разработчиков, там просто все это хозяйство sql разработчики поддерживают
источник

AZ

Anton Zadorozhniy in Data Engineers
Oleg
Нужна команда полноценных разработчиков, там просто все это хозяйство sql разработчики поддерживают
продолжайте использовать SQL, просто перетащите код в темплейты и запускайте из эйрфлоу
источник

PR

Pavel R in Data Engineers
Nikolay Ivanov
Что вы имеете ввиду когда говорите "в разрезе очередей/джобов"? Если вам нужна статистика по hdfs, можно использовать fsimage exporter в прометеус
Что такая-то очередь столько-то hdfs bytes written/read. В апи эта информация есть. Прежде чем писать свой костыль пробую найти, может уже есть готовое.
источник

I

I Апрельский in Data Engineers
Oleg
Ситуация: в компании развернули pentaho kettle , которая standalone версия, ходят по нему через rdp, напили уйму джобов и теперь решение уже не справляется, на что можно перевести эти джобы, желательно опенсорс, free ware? Кроме airflow
А как много джобов?
источник

O

Oleg in Data Engineers
несколько десятков
источник

O

Oleg in Data Engineers
это влияет на что-то?
источник

AK

Alena Korogodova in Data Engineers
Что значит "не справляется"-то?
источник

AK

Alena Korogodova in Data Engineers
Мы вообще на спарк потихоньку всё переписываем с пентахи, но это другая история, пентаха вполне справляется
источник

O

Oleg in Data Engineers
Производительность не на высоте, задачи могут выполняться часами, понятно, что это зависит от многих факторов, но я сейчас ищу, что-то вроде серебренной пули, чтобы серверно, распредленно но при этом не требовало наличия разработчиков с высокой квалификацией в штате
источник

AS

Anton Shelin in Data Engineers
вот если хеш заменить на красно черное дерево то было бы намного лучше в плане изучения
источник

AZ

Anton Zadorozhniy in Data Engineers
Oleg
Производительность не на высоте, задачи могут выполняться часами, понятно, что это зависит от многих факторов, но я сейчас ищу, что-то вроде серебренной пули, чтобы серверно, распредленно но при этом не требовало наличия разработчиков с высокой квалификацией в штате
это будет очень приблизительная мера, особенно если учесть что чтения по сети и локальные очень по-разному стоят.. я бы взял конкретно тормозящие джобы и разбирал их, почему они долго считаются
источник

N

Nikolay in Data Engineers
Спасибо. Отличная статья. Уже прочёл . Все просто класс ! Все понятно
источник

AZ

Anton Zadorozhniy in Data Engineers
сам разрез метрик ввода/вывода по очередям не имеет смысла, очереди не управляют это характеристикой никак, плюс все та нагрузка что идет вообще мимо ярна (загрузки/выгрузки, престо/импалы)
источник

А

Андрей in Data Engineers
ребят, можете пояснить вкратце, в чем цимес CreateOrReplaceTempView в Spark?
я так понял, что temporary view лейзи и не грузится в память, пока над ним не произведутся экшены, а также создается как sql-таблица для запросов через hiveql, например
источник

А

Андрей in Data Engineers
но как он в принципе хранится?
источник

А

Андрей in Data Engineers
до того, как персистится в память, я имею в виду
источник

РП

Роман Пашкевич in Data Engineers
+ тоже бы послушал. Использую TempView для загрузки данных с Hana. Интересно было бы узнать как оно там под капотом...
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей
ребят, можете пояснить вкратце, в чем цимес CreateOrReplaceTempView в Spark?
я так понял, что temporary view лейзи и не грузится в память, пока над ним не произведутся экшены, а также создается как sql-таблица для запросов через hiveql, например
это метаданные в спарк сессии, нужны чтобы потом, например, написать SQL против этого датафрейма (иногда полезно)
источник