Size: a a a

2021 February 10

UR

Uncle Ruckus in Data Engineers
Nikita Blagodarnyy
Во-первых, что считать етл тулом. Если из разряда датастейдж/информатика/ссис, то у них довольно ограниченный скоуп использования и функциональность. Из ораклового одс взять, сагрегировать, переложить с лукапом по цсв в терадатку-прекрасно. Шаг влево/шаг вправо-начинается велосипедостроение и скриптинг-апи обстучать не работает, xml только заданной структуры делает и т.п. Ну и плюс когда логика етл сложная - все эти канвасы превращаются в филиал ада(например, сдс сделать) либо логика выносится на сторону базы и тогда система непрозрачна и непонятно зачем вообще нужна.
А попытки зайти на хадуп и из кубиков генерить скала код и вовсе тошнотворны и работают процентоы на 30 от заявленного.
А чем тогда пользуетесь? Вы меня сейчас просто в тупик поставили, я все делаю неправильно. :) Проблематику Вы описали совершенно правильно, но какие альтернативы? Сразу писать мегапакеты на жабе?
источник

АЖ

Андрей Жуков... in Data Engineers
Uncle Ruckus
А чем тогда пользуетесь? Вы меня сейчас просто в тупик поставили, я все делаю неправильно. :) Проблематику Вы описали совершенно правильно, но какие альтернативы? Сразу писать мегапакеты на жабе?
все всегда заканчивается велосипедами вокруг новой серебряной пули в виде тула или фреймворка

потом велосипеды собираются в новую серебряную пулю

колесо сансары!
источник

KS

K S in Data Engineers
Uncle Ruckus
Господа, а кстате. А за что вы так ETL-тулзы не любите?
Конкретно этот ETL написан на SQL, выполнение которого занимает до 29 часов. То же самое на Python выполняется за 20 минут.
источник

АЖ

Андрей Жуков... in Data Engineers
K S
Конкретно этот ETL написан на SQL, выполнение которого занимает до 29 часов. То же самое на Python выполняется за 20 минут.
кажется, это не проблемы тула 🙂
источник

AA

Anton Alekseev in Data Engineers
K S
Конкретно этот ETL написан на SQL, выполнение которого занимает до 29 часов. То же самое на Python выполняется за 20 минут.
Это задачка с литкода, где надо найти максимально неоптимальное решение?
источник

KS

K S in Data Engineers
Anton Alekseev
Это задачка с литкода, где надо найти максимально неоптимальное решение?
Ему просто было лень переписывать код при добавлении новых полей.
источник

AA

Anton Alekseev in Data Engineers
K S
Ему просто было лень переписывать код при добавлении новых полей.
жёстко
источник

KS

K S in Data Engineers
Anton Alekseev
жёстко
Ага, я когда вьехал в логику ETL, то фаллически удивился.
источник

KS

K S in Data Engineers
Все поля из постгреса переводятся в что-то типа varchar binary и потом это всё инсертится в hive
источник

A

Alex in Data Engineers
Uncle Ruckus
Ну если профессионалы того, как называется группа, то и ниша профессии довольно узкая: подготовить структурированный датасет. При этом желательно при необходимости профессионалу из другой области иметь возможность обьяснить, как собственно этот датасет был получен
вы уверены что показывая “профессионалу из другой области” экран пентахи ему что-то станет понятней?
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncle Ruckus
Ну если профессионалы того, как называется группа, то и ниша профессии довольно узкая: подготовить структурированный датасет. При этом желательно при необходимости профессионалу из другой области иметь возможность обьяснить, как собственно этот датасет был получен
Область data engineering это разработка и сопровождение решений которые строят даталейки, хранилища, витрины и специальные аналитические решения.. классика ETL имеет ряд родовых ограничений которые делают их нишу очень узкой, первый пример - структура данных источника фиксируется на этапе разработки и не может меняться в рантайме (то есть Avro schema evolution уже не работает)
источник

АА

Алексей Артамонов... in Data Engineers
всем привет!
сталкивался кто-то с такой проблемой: я убил джобу пользователя в yarn и после этого все что он запускает в зеппелин уходит в пендинг
источник

АА

Алексей Артамонов... in Data Engineers
может кто подскажет куда копать ?
источник

A

Alex in Data Engineers
то есть зеппелин по какой-то причине не детектит обрыв с кернелом?
источник

АА

Алексей Артамонов... in Data Engineers
ага
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncle Ruckus
А чем тогда пользуетесь? Вы меня сейчас просто в тупик поставили, я все делаю неправильно. :) Проблематику Вы описали совершенно правильно, но какие альтернативы? Сразу писать мегапакеты на жабе?
а что вы строите? какие платформы, какие источники, архитектура решения?
источник

e

er@essbase.ru in Data Engineers
Anton Zadorozhniy
Область data engineering это разработка и сопровождение решений которые строят даталейки, хранилища, витрины и специальные аналитические решения.. классика ETL имеет ряд родовых ограничений которые делают их нишу очень узкой, первый пример - структура данных источника фиксируется на этапе разработки и не может меняться в рантайме (то есть Avro schema evolution уже не работает)
А как без фиксации ? Есть примеры ?
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
А как без фиксации ? Есть примеры ?
Во время обратно совместимой эволюции авро схемы для сообщений в топике последующие пайплайны не должны ломаться, и должны тащить новые поля
источник

S

Shadilan R16 MU Rost... in Data Engineers
Anton Zadorozhniy
Во время обратно совместимой эволюции авро схемы для сообщений в топике последующие пайплайны не должны ломаться, и должны тащить новые поля
С первым согласен, а вот с тащить новые поля это точно так? что-то у меня сомнения.
источник

A

Alex in Data Engineers
конфлюент схема реджистри один из примеров =)
источник