Size: a a a

Инжиниринг Данных

2021 September 29
Инжиниринг Данных
Хотите научиться работать с облачными базами данных и бесплатно сдать сертификационный экзамен DP-900?

Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.

От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.

Успейте записаться на тренинг

PS Пост поддержал приют для собак Зоорассвет в Москве.

PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
источник
Инжиниринг Данных
Из мира игр:
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/

Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)

Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal

А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.

Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.

Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
источник
2021 September 30
Инжиниринг Данных
Вам в помощь - клавиатура с CNTRL+C/CNTRL+V
https://drop.com/buy/stack-overflow-the-key-macropad#overview

PS Только для Senior ролей и выше!
источник
Инжиниринг Данных
Совсем недавно мы обсуждали доставку Insights через webhook в Microsoft Teams, а сегодня я увидел Tableau сообщило:

Goodbye, email. 📧
Hello, Slack! 👋

Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.

https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
источник
Инжиниринг Данных
Нашел интересное тестовое задание. Может быть кто-то хочет попробовать его решить на Python?

Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.

Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.

На выходе, будет spark submit, куда передается параметры.

Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.

Интересно посмотреть на ваши решения.
источник
Инжиниринг Данных
Хорошая презентация с the Building an Open, Petabyte Scale Data Platform with Databricks Workshop. Много интересных слайдов, можно идеи к себе в слайды утащить.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Это очень популярный слайд про ML
источник
2021 October 01
Инжиниринг Данных
Сегодня я поймал себя на мысли, что мне неудобно отправлять коллегам письмо в 9 вечера. И outlook мне показал хорошую опцию - поставить письмо на расписание, так как я его написал в нерабочее время.

Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎

А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆
источник
Инжиниринг Данных
Важные обновления по модулю 6.4 про Azure Synapse.
1) Рома нарисовал красивую обложку 😋
2) Сергей Сволодарский создал шикарную пошаговую инструкцию на русском по Azure Synapse workshop (Dedicated SQL Pool, Serverless SQL, ADF, Power BI, table design techniques). https://github.com/Data-Learn/data-engineering/blob/master/DE-101%20Modules/Module06/DE%20-%20101%20Labs/Azure%20-%20Synapse%20Analytics/Azure-Synapse.MD

PS Сергей такой же ученик даталерн. Он живет в Канаде и хочет работать с данными на позиции дата инженера или BI инженера. Он решил пойти немного дальше и проактивно делает очень качественные материалы для вас.

Зачем? Все просто, когда мы учим других, мы сами активно учимся. Я внимательно слежу за его прогрессом и все жду когда он начнет проходит собесы, пора же уже?))) Уверен он уже многому научился и найдет отличную работу, главное начать проходить собеседования.

Вы тоже можете сделать лабы для даталерн, материалов много и темы все интересней.
источник
Инжиниринг Данных
Сегодня просматривая новости из мира аналитики я заметил 2 очень противоречивых тренда. Сейчас я расскажу, hold my beer!

Во-первых, умные ребята из BI вендора Holistics, у которых очень трезвый взгдяд на вещи и продукты, доперли, что аналитика должна быть в виде кода, они даже заголовок придумали Analytics-As-Code. Looker таким был с самого начала, ну да ладно.

Главная идея, что это решит проблему отслеживания изменений в BI, вот поменяли мы логику метрики, но об этом кроме нас, и может быть, кроме конфлуес/вики никто не узнает (и там это быстро устареет). А вот если у нас BI не приложение, а код, то можно сделать Code Commit, Code Review и даже Unit tests.

Таким образом мы создаем инженерную культуру, повышаем надежность решений. Как следствие для компании зарплата специалистов растет, поэтому это еще вопрос готовы ли мы к этому?

А теперь посмотрим, как дела у инжиниринга данных и пайплайнов. Здесь мы видим совершенно противоположную новсть - The Data Integration Arms Race - Matillion's $150 Million Vs. Fivetran's $565 Million - в которой нам рассказывают про low code solutions. То есть Analytics-as-Application. Вплоть до того, что вам вообще не надо писать код, чтобы делать работу инженера данных. Но у вас возникает проблема, когда у вас больше одного инженера, когда ваши pipelines и SLA имеют важное значение для бизнеса.

Но тем неменее, мы видим как продуктовые компании одновременно рассказывают нам противоположные вещи, причем судя по раундам инвестиций - не безуспешно.

Так как же быть? Как обычно, ответ по середине. Вам как дата профессионалу нынешнему или будущему, надо понимать когда и что использовать, когда low code, хорошо, а когда as a code - must have. Если вы топите только за одно, значит вы доконца поняли другое. У всего есть pros & cons.

По опыту скажу, что для меня лучшее это начать с простого (applications) и двигаться в сторону более сложного (as a code).
источник
Инжиниринг Данных
Если вдруг, вы еще сомневаетесь😎
источник
2021 October 02
Инжиниринг Данных
источник
Инжиниринг Данных
Скинули картинку про мой доклад на AI Ukraine.
источник
2021 October 03
Инжиниринг Данных
Очень актуальная картинка про дата отделы.  Все хотят всего и сразу от аналитического департамента. Для них-то это пустяк, посмотреть цифЕрку или накидать отчетик.

А для дата команды это растущий backlog, постоянная смена приоритетов, и трата дорогих ресурсов для ерунду.

Поэтому самое лучшее, что мы может сделать - сказать НЕТ. “Telling people no”.
источник
Инжиниринг Данных
Сегодня я узнал, что такое - faceted charts. Хотя всегда их использовал раньше, не знал, что это faceted.


The facet implies a little face, such as one of the sides of an object (e.g., a cut diamond) that has many faces. The word is useful for describing an object that creates many little graphics that are variations of a single graphic. In a graphical system, facets are frames of frames. Because of this recursion, facets make frames behave like points in the sense that the center of a frame can be located by coordinates derived from a facet. Thus we can use facets to make graphs of graphs or tables of graphs
источник
Инжиниринг Данных
В статье про межгалактический data stack, знающий человек (как я понял он был одним из основателей Mode - популярного SaaS BI инструмента в 2012-2013 для стартапов на базе SQL) рассуждает про сложность визуализации и ее роль в организации.
https://benn.substack.com/p/the-intergalatic-data-stack
источник
Инжиниринг Данных
Отличная статья про data vault с пример было - стало, из схемы звёзды сделали data vault.
источник