Size: a a a

Инжиниринг Данных

2021 September 15
Инжиниринг Данных
Интерсная заметка про data mesh, мне стало немного понятней, когд а на пальцах описали:

Force me to describe how a data mesh might actually work, and my immediate thought is something like Trino (née Presto): It’s a query wrapper that sits on top of a bunch of data sources.  

This seems to be the community’s best guess for well. But as Ross Housewright points out, this is an uninspiring answer. If the data mesh works with any underlying data structure (e.g., it can sit on top of BigQuery, Oracle, S3, and every weird thing in between), it doesn’t integrate anything. It’s just a switchboard, routing queries to different destinations.  

If the data mesh does requires data sources to be heavily standardized (e.g., each data source is a Snowflake database configured in a particular way), the data mesh doesn’t do anything. It’s just another layer of organization above the database schema. Presto, in fact, already does exactly this.

In both cases, the data mesh fails to help people consuming data—the people for whom all of this effort is supposedly for.


Вообще это из статьи про Data OS, где автор рассуждает о куче несвязанных инструментов, где есть vendor lock, и как не хватает операционной системы, как например, Андроид, где уживаются разные приложения.
источник
Инжиниринг Данных
Недавно был шикарный вебинар про Data Vault от Николая, где он все подробно объяснил. Итого, у нас есть 3 основные методологии:
- 3NF
- Dimensional Modelling
- Data Vault

Так же Николай рассказывал мельком про Anchor modelling (4ая методология) - Vertica+Anchor Modeling (его статья на хабр из Авито)

А недавно мне попалась еще одна вещь из мира моделирования хранилищ - Activity Schema.

The activity schema is a new data modeling paradigm designed for modern data warehouses. It was created and implemented by Ahmed Elsamadisi at Narrator.

This new standard is a response to the current state of modeling with star or snowflake schemas - multiple definitions for single concepts, layers of dependencies, foreign key joins, and extremely complex SQL definitions. It is designed to make data modeling substantially simpler, faster, and more reliable than existing methodologies.

The activity schema aims for these design goals

- only one definition for each concept - know exactly where to find the right data
- single model layer - no layers of dependencies
- simple definitions - no thousand-line SQL queries to model data
- no relationships in the modeling layer - all concepts are defined - independently of each other
- no foreign key joins - all concepts can be joined together without having to identify how they relate in advance
- analyses can be run anywhere — analyses can be shared and reused - across companies with vastly different data.
- high performance - reduced joins and fewer columns leverage the power of modern column-oriented data warehouses
- incremental updates - no more rebuilding data models on every update

At its core an activity schema consists of transforming raw tables into a single, time series table called an activity stream. All downstream plots, tables, materialized views, etc used for BI are built directly from that single table, with no other dependencies.
источник
Инжиниринг Данных
#вакансия #fulltime #продуктовыйаналитик #удаленка #офис

Привет! Ищем продуктового аналитика (Junior+ — Middle) в компанию Академия Eduson.
💴 ЗП: до 150 000 рублей на руки.
Полная занятость, удаленная работа (офис в г.Москва, м. Автозаводская, БЦ Омега Плаза.

Мы ищем аналитика, который сможет покрыть дашбордами весь маркетинг, продажи и операционку Академии, построить предиктивные модели и будет проводить количественные исследования в продукте. У нас настроена аналитическая инфраструктура, так что сейчас дело за содержанием.

Задачи:
— Вместе с архитектором определять требования к системе сбора аналитических данных;
— Настроить панели мониторинга, которые помогут команде следить за успехами и проблемами бизнеса;
— Делать понятные отчеты для команды и структурировать их так, чтобы с их помощью принимались правильные продуктовые решения;
— Предлагать продуктовые гипотезы и тесты исходя из собранных данных;
— Разрабатывать предиктивные модели для скоринга лидов;
— Проектировать, запускать и интерпретировать A/B-тесты;
— С ростом команды — собирать и вести команду аналитиков.

Ожидания:
— Опыт работы с продуктовыми данными от 1 года;
Понимание продуктовых метрик;
— Крепкая теоретическая база: математика, статистика, методологии А/В-тестирования;
— Уверенное знание хотя бы одного инструмента визуализации аналитических данных;
— Понимание принципов работы сквозной аналитики (из трафика в оказанную услугу);
— Умение писать сложные SQL-запросы;
Будет большим плюсом:
1) опыт программирования;
2) владение Python / R / Matlab;
3) PowerBI / Tableau / Periscop.

Условия:
— оформления по ТК РФ;
— работа в офисе в Москве или удаленно, гибкий график;
— повышение квалификации за счет компании.

Рекомендации и отклики буду ждать в личных сообщениях: @as_sheveleva

PS Объявление поддержало фонд всевсевместе.
источник
Инжиниринг Данных
Сегодня (у вас наверно завтра) будет что-то интересное - Space Launch - First ever all private citizen orbital mission launch.

SpaceX will launch four private astronauts on the first free flight mission of Crew Dragon on Inspiration4. The Falcon 9 B1062-3 will launch Crew Dragon C207-2 into a 590 km low-Earth orbit; this will mark the highest orbit a crewed mission has gone to since the STS-103 mission in 1999. The Inspiration4 mission will launch from Launch Complex 39A (LC-39A), at the Kennedy Space Center, in Florida, USA.

Так как я начинал свою карьеру в ГКНПЦ им Хруничева (провел там 3 года), это они запускаю Протон и в школе ходил в Дворец Пионеров на м Университет, где занимался ракетомоделизмом, то всегда интересно следить за индустрией космоса. Дата инженеров пока SpaceX и BlueOrigin не берут)
источник
Инжиниринг Данных
Не часто вижу, как кого-то наказывают (компанию, продукт) за ложные обещания, особенно за данные. Я работал давно с AppAnnie, и вроде популярный иснтрумент, и денег у них должно хватать, но они решили "под шумок" обманывать клиентов и разработчиков. Кто там разберет, как эти данные, модели и алгоритмы работают.

From 2014 to 2018, that data had a little extra (and apparently untoward) spice added to it—non-aggregated and non-anonymized data provided to App Annie by different mobile developers. This was a two-way deception. The company told developers who provided user data to App Annie that said data would be anonymized and aggregated before analytics were presented to customers.

Customers in turn were told that the data they were analyzing was derived from App Annie’s statistical models and analysis. It was buoyed by that non-anonymized, non-aggregated data.



В общем 10млн штрафа. Я уверен таких компаний очень много.
источник
2021 September 16
Инжиниринг Данных
Хорошая визуализация про ценность данных (ответов на бизнес вопросы). Если данные правильные, то это хорошо для компании, если не правильные, то это плохо. А еще есть возможность вообще ничего не делать, тогда это ни плохо, ни хорошо. Но в целом, все таки плохо😝
источник
Инжиниринг Данных
Конференция по современному open-source data stack в онлайне: пройдет 28-30 сентября. Можно зарегистрироваться на сайте.
источник
2021 September 17
Инжиниринг Данных
Крутые новости - Microsoft отказывается от паролей. Мне ещё в Амазоне на всех проектах говорил, что пароли это зло, например в AWS мы использовали роли IAM. В Azure сейчас используем Service Principal и роли IAM. А тут жизнь станет проще для простых людей.
источник
Инжиниринг Данных
Есть несколько ролей в AI data science:
Data scientist - универсальный специалист, которые строит модели, готовит данные по возможности и находит инсайты и рекомендации.
Research scientist - человек с PhD в какой-то области, решает конкретную задачу из своей области, например computer vision, NLP. Дорабатывает и усовершенствует существующие подходы и методологии.
Applied scientist - тоже с PhD в какой то области, отлично разбирается в domain, выступает как subject matter expert, создаёт методологии, но сам может и не строить модели, даёт задание data scientist.
ML engineer - software engineer, которые пишет код для machine learning (deep learning часто), запускает модели в продакшн и масштабирует. По мне это как data scientist, который пришел из SDE мира и знает как писать код, создавать приложения.

Давайте в комментариях дадим определение каждой из ролей в кратце, а то существует путаница. Даже мое восприятие может быть не правильным. Свою версию я написал тут. Может быть есть ещё роли.
источник
Инжиниринг Данных
В чатике DIE or DE скинули видео - Big Data: IOTA архитектура: обработка мульти-структурных данных несвязанной природы

Я не думаю, что когда-то буду пользоваться IOTA архитектурой, но очень крутой спикер - Константин Будник – ветеран разработки экосистемы Apache Hadoop. Он уже больше 20 лет занимается разработкой ПО, аналитикой быстрых и больших данных, 17 панетов по распределенным системам, и по его словам, в Hadoop его кода очень очень много.

Очень классно и интресно рассказывает, практически на пальцах объясняет сложные концепции. Раньше про него не слышал. Можно считать его отечественным отцом hadoop и big data😎
YouTube
Big Data: IOTA архитектура: обработка мульти-структурных данных несвязанной природы
Константин Будник – ветеран разработки экосистемы Apache Hadoop. Он уже больше 20 лет занимается разработкой ПО, аналитикой быстрых и больших данных.

И вот с какой темой он выступит: «IOTA архитектура: обработка мультиструктурных данных несвязанной природы».

Константин: «Обработка массивных наборов данных, которые поступают с разной скоростью в системы хранения и процессинга, всегда нетривиальна. Я расскажу о введении нового уровня абстракции и физического слоя вычислений в кэширующей распределенной памяти. Это позволяет создавать, отслеживать, удалять и обрабатывать последовательности блоков данных. Они могут представляться как объекты файловой системы, структуры, доступные через ftp/http-протоколы, SQL-запросы или программные функции с отложенным выполнением».
источник
2021 September 18
Инжиниринг Данных
Получается телеграмм сдал позиции независимого и безопасного приложения? Или он таким и не был никогда😕
источник
Инжиниринг Данных
Ещё один отзыв от нашей студентки из Финляндии:

Курс Data Learn помог мне получить необходимые технические навыки для работы Data Engineer на европейском рынке. В РФ я работала системным аналитиком на проектах в финансовой сфере и активных навыков работы с современными ETL инструментами не имела. После переезда в Северную Европу стало понятно, что для работы BI аналитиком кроме хорошего английского неплохо бы знать один-два местных языка на хорошем уровне (это пару лет активного изучения), а от разработчиков этого не требуется. Курс от Data Learn позволил оперативно (месяцы) подтянуть навыки работы с ETL инструментарием и облачными технологиями западных вендоров. Во всех компаниях, с которыми я тут сталкивалась по работе, уже закончилась миграция в облако.

Могу рекомендовать курс всем, кто хочет освоить современный инструментарий и работать на проектах с европейскими компаниями.

Курс прекрасно структурирован.
источник
2021 September 19
Инжиниринг Данных
Как учить Python? Ну или любой другой язык (хоть испанский) - нужна практика! Вот интересный репозиторий Python Mini Projects, в котором 101 проект, от простого к сложному.
источник
2021 September 20
Инжиниринг Данных
Хороший документ от HBR - “RESUMES and COVER LETTERS”, подойдет всем, кому нужно сделать резюме и письмо на английском языке, а так же тем, кто пишет письмо на английском. Тут есть примеры синонимов глаголов и других оборотов речи, которые можно использовать для написания эссе или деловой переписки.
источник
Инжиниринг Данных
У Microsoft тоже есть облако Azure, и в нем есть целая платформа для аналитики, которая называется Azure Synapse Analytics. В него входят уже устоявшиеся инструменты Azure SQL Data Warehouse (теперь называется Dedicated SQL Pool), Azure Data Factory, Azure ML, Power BI Service, так и были добавлены новые Azure Spark Pools, Serverless SQL Pool. Все достаточно удобно, каждый инструмент легко интегрируется с решениями Azure. Если вы работаете с решениями Microsoft, то облако Azure это следующий логический шаг вашего развития. Так же Azure Synapse способен заменить решения Azure HDInsight и Azure Databricks (решения для big data). По опыту я знаю и видел огромное количество решений на Microsoft SQL Server (on-premise), но вообще не знаю ни одного решения на Azure Synapse, но уверен скоро их появится много.

https://youtu.be/gQAGa3xZr_M

В этом уроке “Знакомство с Azure Synapse Analytics” мы:
📌   Посмотрим на история Azure хранилища данных
📌    Узнаем про стратегию создания продуктов Microsoft
📌   Узнаем про переход от Azure SQL Data warehouse к Azure Synapse Analytics
📌   Познакомимся с Azure Synapse Analytics: Dedicated SQL Pools, Spark Pools, Serverless SQL Pools
📌   Azure Synapse Serverless Pools vs Amazon Redshift Spectrum
📌   Посмотрим на пример архитектуры Azure Data Platform и узнаем какие инструменты есть в Azure для аналитики
📌   Детально посмотрим на особенности Azure Dedicated SQL Pools (бывшее Azure SQL DW), узнаем, что внутри и как с ним работать и оптимизировать (distribution stiles, indexes, statistics)
📌   Узнаем, что такое PolyBase или как загружать данные из Azure Hadoop
📌   Узнаем про Azure Data Factory
📌   Поговорим про бесполезность и полезность Azure Analyses Services
📌   Поговорим про конкуренция Azure Databricks и Azure Synapse Spark pools

На лабораторных работах я вам покажу:
📌   Как создать Azure Synapse Workspace
📌   Как в нем создать Serverless SQL Pools, Dedicated SQL Pool (Azure DW)
📌   Посмотрим, что внутри Synapse Workspace
📌   Покажу вам, как можно поиграться с данными NY taxi
📌   Покажу, где взять открытые данные по COVID-19


Дополнительные материалы:
📌   [Synapse Tutorials](https://docs.microsoft.com/en-us/azure/synapse-analytics/get-started)
📌   [Azure Naming conventions](https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/ready/azure-best-practices/resource-naming)
📌   [Azure SQL DW paper - POLARIS: The Distributed SQL Engine in Azure Synapse](https://www.vldb.org/pvldb/vol13/p3204-saborit.pdf)
📌   [Моя статья для Matillion ETL - Creating a Modern Data Platform with Azure Synapse Analytics and Matillion ETL](https://www.matillion.com/resources/blog/creating-a-modern-data-platform-with-azure-synapse-analytics-and-matillion-etl)
📌   [Статья про Azure Synapse от Medium блога Towards Data Science](https://towardsdatascience.com/tagged/azure-synapse-analytics)
📌   [Azure Synapse for Data Analytics — Create Workspaces with CLI](https://medium.com/microsoftazure/azure-synapse-for-data-analytics-create-workspaces-with-cli-bd5ef90fd489)
📌   [Introduction to Azure Synapse Analytics](https://medium.com/codex/introduction-to-azure-synapse-analytics-ff317e782f7b)
📌   [Azure Analytics: ясность в мгновение ока](https://habr.com/ru/company/microsoft/blog/503582/)

Курсы от Курсеры и Microsoft, скорей всего вам дадут кредиты на облако Azure
📌   [Introduction to Microsoft Azure Synapse Analytics](https://www.coursera.org/learn/introduction-to-microsoft-azure-synapse-analytics)
📌   [Data Warehousing with Microsoft Azure Synapse Analytics](https://www.coursera.org/learn/data-warehousing-with-microsoft-azure-synapse-analytics)
📌   [Azure Synapse SQL Pool - Implement Polybase](https://www.coursera.org/projects/azure-sql-pool-polybase)
📌   [Data Engineering with MS Azure Synapse Apache Spark Pools](https://www.coursera.org/learn/data-engineering-with-ms-azure-synapse-apache-spark-pools)
источник
Инжиниринг Данных
Интересная статья - История развития SalesForce, одного из первых коммерческих успешных облачных SaaS продуктов.

Before Salesforce’s launch, software—and in particular, enterprise software—wasn’t just a computer program; it was also the frustrating and ugly work necessary to buy and run it.¹ At that time, a decade or so into the IT revolution, the promise of what software could be was undercut by what it actually was: a painful buying cycle from enterprise sales teams; a long installation and rollout process; ongoing administration and management; tightrope walks of rolling upgrades. Though IT teams bought perpetual licenses, they still paid a recurring cost of toil and constant trouble.

Salesforce promised something different. They promised software, without the baggage. They promised software that you “didn’t have to touch;” you just sign up and use it.  

In other words, the “end of software” wasn’t about getting rid of software; it was about getting rid of the associations people had with it. Salesforce’s ambition wasn’t to provide better answers to common questions like, “what kind of hardware do I need to run this software?” and “what is the cost of upgrading to the new version?” They wanted people to stop asking these questions entirely.
источник
Инжиниринг Данных
Я все больше замечаю Data Engineering программ в западных университетах, уже встречал курсы в MIT и UC Berkley.  Я даже хочу записать обзор курсов по дата инжинирингу западных и отчественных. Разница в цене колосальная, на западе курс стоит от 8т до 15т долларов, в РФ он стоит 60-150т рублей. Самое интересно, что курс за доллары не намного лучше, чем курс за рубли. Ни за доллары, ни за рубли вас на работу не устроят и вы не получите практического опыта. Если 100т рублей потерять не так жалко, то вот 15т долларов это вообще печаль. Зато будет хороший нетворкинг (а будет ли он в наше время?), но практика английского точно будет!

UC Berkley выложили слайды в открытый доступ: https://cal-data-eng.github.io/

This new class on Data Engineering will cover the principles and practices of managing data at scale, with a focus on use cases in data analysis and machine learning. We will cover the entire life cycle of data management and science, ranging from data preparation to exploration, visualization and analysis, to machine learning and collaboration.
источник
2021 September 21
Инжиниринг Данных
Посмотрел сейчас hh, позиции дата инженера, зарплаты в 300-450т рублей в месяц меня удивили. Неужели и правда столько платят?  

Сегодня думал про то, что "окно возможностей" в дата позиции скоро закроется. Сейчас есть реальный шанс попасть в эту индустрию и как мой товарищ с 0, выучился за 5 месяцев, пришел на 120т, и проработав меньше года, ушел на 200+и рублей.

Головокружительный успех, но мне кажется, скоро (не знаю насколько скоро, рынок переполнится дата профессионалами), такие вещи не пройдут и datalearn превратится в тыкву. И мой опыт будет устаревшим. Так что, если вы задумываетесь получить профессию в дате, зарабатывать хорошо, не теряйте время! Как говориться, куй железо, пока оно горячо!!Всем успехов!
источник
Инжиниринг Данных
Недавно у меня случился конфуз с каналом Инжиниринг данных. У канала есть "чат", в который попадают все комментарии. Я по незнанию назвал это "Чат инжиниринг данных" и более 90 человек туда подписались. Получилось, что вокруг комментариев создался чат, и некоторые воспринимали его как чат.

Поэтому я его переименовал в "Комментарии к каналу Инжиниринг данных", то есть эта функциональность работает замечательно, если мы заходим в комментарии под постом и читаем их. В случае, когда мы подписаны на это чат, мы видим все вподряд в хаотичном порядке.

Поэтому я вчера удалил из него всех людей, но оказалась, что они заблочились на комментарии. 🙈 и не могли читать комментарии.

Сейчас я исправил, чтобы у всех вернулась возможность читать комментарии. Но на всякий случай сделал публичный чат "Инжиниринг Данных", куда вы можете подписаться.

Правила чата:
Можно🟢:
- Обсуждаем аналитику, вакансии, инжиниринг и рабочие вопросы
- Постить вакансии
- Можно скидывать интересный контент, книги и статьи, которые посвящены data и развитию карьеры
- Спрашивать о помощи или совета

Нельзя🔴:
- Постить рекламу курсов платных😡
- Постить про политику, прививки и другие популярные вещи не по теме (оставим это только в канале Инжиниринг Данных😅)
- Матом не ругаемся☺️

В нем я могу сделать несколько админов. Не знаю, нужен этот чат или нет, но попробуем.
источник
Инжиниринг Данных
25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена.

Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!
Количество мест ограничено.
Все зарегистрировавшиеся получат видеозаписи с мероприятия.


Продробности и регистрация по ссылке: https://events.yandex.ru/events/zen-meetup-exploration/?from=tg_cpc_rockyourdata

PS реклама поддержала приют для собак в Москве.
источник