Size: a a a

2021 March 08

MS

Maksim Statsenko in Data Engineers
Мне скорее интересно, как кто организует свою документацию.  Чтобы она была полезной и с ней было легко обращаться )
Кажется, что если просто иметь табличку :
userid - идентификатор пользователя
revenue - выручка

Это не самая хорошая дока, так как она больше похожа на англо-русский словарь и не отвечает на вопросы, как правильно что-то посчитать по данным
источник

NB

Nikita Bakanchev in Data Engineers
а что ты ожидаешь? Бывают выборочное описание сложной бизнес-логики или парсинг комментариев столбцов при создании и описании схем. Data Lineage мне кажется собирается часто своей самопиской, либо парсингом лога запросов, либо еще каким-то способом.

Доки, описанные ручным способом, часто опаздывают по времени. В эпоху вотерфалла часто велись логические модели и S2T подробные, но кажется сейчас это часто не так
источник

AZ

Anton Zadorozhniy in Data Engineers
Maksim Statsenko
Мне скорее интересно, как кто организует свою документацию.  Чтобы она была полезной и с ней было легко обращаться )
Кажется, что если просто иметь табличку :
userid - идентификатор пользователя
revenue - выручка

Это не самая хорошая дока, так как она больше похожа на англо-русский словарь и не отвечает на вопросы, как правильно что-то посчитать по данным
Дата каталог, сервис метаданных пайплайнов, и какая-то веб морда над ними, больше ничего не нужно
источник

AZ

Anton Zadorozhniy in Data Engineers
Всякие социальные фичи (комменты под пайплайнами, лайки на датасетах) продаются бизнесу, но я видел ровно одно место, где это реально приносило пользу
источник

AZ

Anton Zadorozhniy in Data Engineers
(своим клиентам я такого не рекомендую)
источник

ME

Max Efremov in Data Engineers
Maksim Statsenko
Мне скорее интересно, как кто организует свою документацию.  Чтобы она была полезной и с ней было легко обращаться )
Кажется, что если просто иметь табличку :
userid - идентификатор пользователя
revenue - выручка

Это не самая хорошая дока, так как она больше похожа на англо-русский словарь и не отвечает на вопросы, как правильно что-то посчитать по данным
У нас lucidchart с таблицами))
источник

MS

Maksim Statsenko in Data Engineers
Nikita Bakanchev
а что ты ожидаешь? Бывают выборочное описание сложной бизнес-логики или парсинг комментариев столбцов при создании и описании схем. Data Lineage мне кажется собирается часто своей самопиской, либо парсингом лога запросов, либо еще каким-то способом.

Доки, описанные ручным способом, часто опаздывают по времени. В эпоху вотерфалла часто велись логические модели и S2T подробные, но кажется сейчас это часто не так
Я пытаюсь решить вот какую задачу. У меня есть несколько широченных витрин ( 100 + столбцов ), которая строится из пары десятков источников.
Пара разработчиков и пара аналитиков умеем посчитать по ним правктически что угодно. У этих таблиц есть описание( англо-русских словарь ). Но каждый раз когда какой-то человек, который не участвовал в создании этих витрин пытается решить задачу - он сам разобраться не может и идет задавать вопросы к той бравой четверке и чем больше пользователей у витрины, тем меньше времени на работу у хороших датаинженеров )
источник

V

Vasiliy in Data Engineers
Из практики. Из комментариев вполне себе внятную Доку можно собирать, чуть ли не динамическую
С нормальным инф.порталом по вашему хранилище ни 1 здравый человек не будет вопросы задавать, зачем время терять.
источник

V

Vasiliy in Data Engineers
И да, если немного подумать, отчет по датасету ничем от самого датасета не отличается, кроме как наличием статичного описания
источник

V

Vasiliy in Data Engineers
Которым вы обогатите упоминаемый датасет
источник

V

Vasiliy in Data Engineers
Начните с самого малого и самого ответственного, опишите мастер-данные
источник

PK

Pavel Klemenkov in Data Engineers
Grigory Pomadchin
🚨ГОТОВЬТЕСЬ!🚨
И не говорите, что мы вас не предупреждали.

Уже 10 марта стартует флагманский онлайн-курс
"Data Engineer 8.0". Присоединяйтесь: https://clck.ru/TXLLN

🧑🏻‍💻Приглашаем дата инженеров, администраторов баз данных и менеджеров по развитию продуктов систематизировать свои знания и овладеть новыми востребованными навыками в области дата инжиниринга.

7-недельная образовательная программа по построению ETL-пайплайнов: Hadoop, Kafka, Spark, Airflow, ElasticSearch и пр:
✔️21 практическое занятие;
✔️10+ современных инструментов по обработке данных;
✔️6 лабораторий-суперавчиков.

Обучают: Антон Пилипенко (Sbermarket), Николай Марков (Aligned Research Group), Андрей Титов (NVIDIA) и Егор Матешук (Qvant),

Преподаватели, не нуждающиеся в дополнительном представлении. Они поделятся с вами своим бесценным опытом, датасетами из реальной жизни и помогут обойти многие подводные камни.
@pomadchin какая комиссия у тебя? )
источник

GP

Grigory Pomadchin in Data Engineers
Pavel Klemenkov
@pomadchin какая комиссия у тебя? )
не такая большая)
источник

N

Nikita Blagodarnyy in Data Engineers
Grigory Pomadchin
не такая большая)
Что такое "лаборатории-суперавчики"?
источник

АЖ

Андрей Жуков... in Data Engineers
Nikita Blagodarnyy
Что такое "лаборатории-суперавчики"?
Вроде это особо задротские домашки
источник

СХ

Старый Хрыч... in Data Engineers
Странно что oozie нет, неужели все пересели на пайтон
источник

GP

Grigory Pomadchin in Data Engineers
Nikita Blagodarnyy
Что такое "лаборатории-суперавчики"?
а тут есть ж рибята которые ведут курс
источник

GP

Grigory Pomadchin in Data Engineers
@tenKe поясни нам за домашки
источник

С

Сюткин in Data Engineers
Я вам больше скажу, я буду курировать DE 8.0
источник

t

tenKe in Data Engineers
думаю все вопросы по курсу логичнее задать организаторам курса :)
источник