Size: a a a

Инжиниринг Данных

2021 November 16
Инжиниринг Данных
Сегодня товарищ из команды Azure Workspaces показывал как у них устроена аналитика.

Данные сыпятся в Azure Data Storage Gen2. Для хранилища данных у них Azure SQL (облачный SQL server).

Для BI используют Power BI. Пока ничего необычного для меня. Как вы знаете, или ещё не знаете, я всегда относился к кубам Analysis Service очень критично. Но сегодня я увидел их ценность.

В классическом Power BI/Tableau у нас стандартная проблема, как поддерживать версионность? Как смотреть изменения в коде, использовать code review и change request? Обычно никак. Наш дашборд это просто файл.

На примере связки Power BI и Azure Analysis Service я увидел как я могу задизайнить семантический слой в Visual Studio (почти как universe в SAP Business Objects). Использовать DAX, чтобы рассчитать дополнительные колонки и показатели и сделать commit/push семантического слоя в Azure DevOps (git repo). Все будет как код, и мы можем легко отслеживать изменения метрик и измерений. Все тоже самое, что мы сейчас делаем с Azure Data Factory.

Сам Power BI используем как морду, чтобы графики нарисовать. Бизнес логика - самое ценное, все будет описано как код, визуализировать как entity diagram.

Раньше я парился из-за MDX в MOLAP и думал, что кубы нужны только для решения проблем с производительностью. Оказывается я был не прав и сегодня увидел классный кейс, где все продукты Microsoft работают вместе эффективно.

PS но все равно, от этого я их больше любить не стал🤫

Может кто-нибудь хочет сделать такую лабу или вебинар для datalearn? 🐒

PPS Сегодня увидел, что Дмитрий, который делал вебинар по Airflow недавно, вышел в Microsoft Prague, с чем его и поздравляю!🎉👏
источник
Инжиниринг Данных
У нас продолжение противостояния между Snowflake и Databricks. Новый ответ Db на тесты Snowflake.

Сколько же ресурсов сжигается на эти тесты. Пора уже на Петабайты переходить! Я бы ещё проверил их продукты на карбоновый след в экологию. Может быть одни быстрее, а другие экологичней. Или за каждый терабайтах просканированных данных сажать дерево.
источник
Инжиниринг Данных
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день

Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.

Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.

Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://l.tinkoff.ru/1dayoffer-dwh-tinkoff

PS пост поддержал приют для собак.
источник
Инжиниринг Данных
Переслано от Sergey
Откуда и куда я перешел:
из бухгалтерии/финансов в Data Engineering.

Откуда все началось:
Задолбало заниматься бесполезной рутиной и в конце 2018 года начал учить VBA, применять на практике для автоматизации процессов. Затем Power Query. Power Pivot все для того-же - автоматизаци. Прошел годичную Business Intelligence программу  в местном университете с уклоном на on-prem технологии. Тогда моей ошибкой было отсутствие конкретной цели для учебы. Только к концу 2020 года я понял, что мне нужно определиться с карьерой и херячить в выбранном направлении. Тем временем у меня хорошая работа/зарплата/коллеги/компания.

Как я начал нарабатывать скиллы:
В компании, в которой я дорабатываю последнюю неделю, меня изначально нанимали на бухгалтерскую позицию с пониманием, что я дружу с технологиями . Мне дали доступ read к базе данных, data warehouse, разрешили установить VS Code и конечно Python. Тут я стал местным суперстар. Вообще очень много людей из финансов переходят в BI. Я думаю потому что они понимают какую пользу могут принести компании.

Чем мне помог Data Learn:
Все-таки, я хотел стать Data Engineer. Почему? Просто-напросто хотелось стать инженером. Мне хотелось чтобы моя работа была связана с программированием. Хотел создавать, разрабатывать. Мне нравится находить решения к проблемам, используя технологии.
До Data Learn у меня не было структуры и понятия что мне нужно сделать, чтобы найти работу дата инженера. Информации уйма. Как отбросить мусор, если ты не понимаешь что важно, а что нет?
С Data Learn появилось четкое понимание, что к чему, и что нужно делать, чтобы "добраться из точки А в точку Б".

Как нашел работу:
Через networking. У меня появился знакомый уже опытный дата инженер. Разговаривая с ним на проф тематику, я почувствовал уверенность, что, хотя, у меня опыта мало, но концептуально мне все понятно о чем он говорит.
Меня порекомендовали в одну компанию. Там мне сказали что я им понравился за свою проактивность в изучении технологий, скиллы и что делаю side projects на работе.

Будущий stack:
microsoft azure, azure data factory, databricks, spark

Я испытываю счастье и благодарен команде datalearn за такой важный и нужный проект.

Всем удачи!
источник
Инжиниринг Данных
Tableau (Sales Force) приобрели еще одну компания - Narrative Science. У них есть интересный продукт Lexio для data story telling.
источник
2021 November 17
Инжиниринг Данных
Для всех кто не в восторге от облаков, я нашел вам список аргументов, с которыми вы можете смела всех посылать, если вам будут предлагать строить облачные решения!
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Сегодня буду выступать на https://devgamm.com/fall2021/. Я первый раз прошел через официальное ревью презентации с двумя директорами и 2 principal инженерами, тот самый случай, когда инициатива 😞 инициатора😳
источник
2021 November 18
Инжиниринг Данных
Работаете с облачными проектами или только планируете переходить на облачные решения?  
Научитесь управлять бюджетами на облачные разработки эффективно с Microsoft Azure!

👉Регистрируйтесь на бесплатный вебинар от экспертов Microsoft (и не только) «Управляем бюджетом в Azure: полезные советы».
30 ноября, 10:00–12:00 (МСК)

За пару часов они расскажут:
- Как правильно считать стоимость облачных ресурсов;
- Как оптимизировать разработку архитектуры;
- Какие наиболее эффективные способы закупки облачных ресурсов и пути экономии бюджета.

Обязательная регистрация уже доступна!
👉ЗАРЕГИСТРИРОВАТЬСЯ
источник
Инжиниринг Данных
Классический пример использования AI, мало того, что он совсем не Responsible AI, так он еще похож на классический случай внедрение ML/AI в организациях.

Кратко про AI систему, которая вершит судьбы людей: It is a Microsoft Excel-based system called Chinook.

Chinook - это разновидность лосося, сразу видно Канадские рыбаки придумали красивое название для своей AI системы😏
источник
2021 November 21
Инжиниринг Данных
Субботу я посвятил looker. Looker это BI инструмент, который доступен только в облаке. В РФ врятли популярен, но в нем вся ваша аналитика как код, мы создаём семантический слой и описываем все с помощью LookML. Материалы я взял на Pluralsight - есть курс от Гугла с лабами и на самом сайте Looker.  Отличная штука в связке вместе с dbt, такой наборчик SQL дата хипстера(ши).🐒

Кто используете поделитесь, как он вам?
источник
Инжиниринг Данных
Новый для меня инструмент - Apache Ranger - the vision with Ranger is to provide comprehensive security across the Apache Hadoop ecosystem.  https://ranger.apache.org/
источник
Инжиниринг Данных
Парочка современных решений, конечно же в облаке🌩

Building a Data Warehouse on Google Cloud Platform That Scales With the Business

Scentbird Analytics 2.0. Migrate from Redshift to Snowflake. Redesign ETL process.

Статья имеют краткое описание инструментов и архитектуры.
источник
Инжиниринг Данных
На пересечение Machine Learning и Data Engineering существует  Feature Stopre и MLops. Эти 2 ключевых слова, при мысли от которых у инженера данных настоящий восторг, уровень buzz words на пределе. Главное загвоздка, а как это собственно делать🙈

Вот еще несколько новых инструментов по этой теме - Feast and Flyte.

Feast provides the feature registry, an online feature serving system, and Flyte can engineer the features. Flyte can also help ensure incremental development of features and enables us to turn on the sync to online stores only when we are confident about the features.

Flyte provides a way to train models and perform feature engineering as a single pipeline. But it provides no way to serve these features to production when the model matures and is ready to be served in production.
Feast provides the feature registry, an online feature serving system, and Flyte can engineer the features. Flyte can also help ensure incremental development of features and enables us to turn on the sync to online stores only when we are confident about the features.

Flyte provides a way to train models and perform feature engineering as a single pipeline. But it provides no way to serve these features to production when the model matures and is ready to be served in production.

Bring ML Close to Data Using Feast and Flyte

*What is a Feature Store?
**Feature Engineering tutorial with Flyte
источник
Инжиниринг Данных
Microsoft Synapse Analytics активно развивает свою платформу и добавляет туда все больше продуктов.
источник
2021 November 22
Инжиниринг Данных
Рады предложить вашему вниманию перевод статьи Тристана Хэнди «The Modern Data Stack: Past, Present, and Future». Она о современном стеке данных, если точнее, о его эволюции: автор рассматривает развитие аналитических решений с 2012 по 2020 год (статья прошлогодняя), даёт свою оценку происходящему и рассуждает о возможном будущем. Автор с более чем 20-летним опытом в области данных старается понять динамику продуктовой экосистемы в этой сфере.

Перевод подготовила Наташа Низамутдинова, стаж в области данных 0 лет, опыт в туризме 11 лет, с аналитикой — на этапе знакомства.
источник
Инжиниринг Данных
Планирование работы, фаз проекта, спринта - это очень важная часть командной работы и достижения результата. Мне, как инженеру данных, все эти митинги по планированию, очень не нравятся, как и любые другие митинги с 3+ человека. Но без правильного планирования невозможно сделать проект вовремя. Очень хорошая статья обзор, как разные команды и компании занимаются планированием.

What planning is like at…
From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.

PS Можно даже сделать перевод - отличная статья на продуктовую тему. Есть желающие?
источник
Инжиниринг Данных
Great Expectations это новая (Паша в комментариях настоял) популярная библиотека для дата инжиниринга на питоне, библиотека служит для data quality задач. Новая статья про использование этой библиотеки вместе с Amazon Redshift.
источник
2021 November 23
Инжиниринг Данных
источник
Инжиниринг Данных
🆎 Proba — новый сервис для проверки продуктовых гипотез в мобильных приложениях.
Proba — новый сервис для проверки продуктовых гипотез в мобильных приложениях.

Развитие мобильного приложения невозможно без постоянной проверки новых гипотез. Это конвейер — протестировали, измерили, приняли/отклонили. Любому product-менеджеру, разработчику, аналитику, маркетологу хочется ускорить этот процесс. На проверку каждой гипотезы уходит несколько дней (часто и недель), плюс нужно позаботиться о статзначимости результата.

Мы запускаем сервис, который помогает мобильным продуктам автоматизировать этот процесс и проводить A/B-тесты быстрее и дешевле. Для этого мы реализовали алгоритмы автоматического распределения пользователей и оптимизации под выбранную целевую метрику. Помимо простой конверсии алгоритм может оптимизироваться на ARPU и количество совершённых событий. Уже в ходе эксперимента побеждающий вариант будет получать больше пользователей. Автоматическое распределение трафика работает на основе байесовской статистики.

🚀 Мы приглашаем вас попробовать наш сервис бесплатно и будем рады любой обратной связи — регистрируйтесь на proba.ai

📆 Также приглашаем на бесплатный вебинар «А/B-тесты в мобайле: как проверять гипотезы быстро и дёшево», который пройдёт 1 декабря в 16:00 МСК. Регистрация доступна здесь.

По всем вопросам: @annatch66
источник