Size: a a a

Инжиниринг Данных

2021 December 22
Инжиниринг Данных
Это прям судьба! Databricks раздает бесплатно книгу - Learning Spark V2. Офигенная книга, я по ней и изучал Spark год назад и буду ее использовать в модуле 7. Вам она точно пригодится!

PS Спасибо Денису Волку за наводку в slack.
источник
Инжиниринг Данных
Готово видео по 6.8 https://youtu.be/xXpoegKJUYU
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 6-8 ОБЗОР ВАКАНСИЙ ДАТА ИНЖЕНЕРА (DATA ENGINEER) ПО ВСЕМУ МИРУ
В заключительном уроке нашего модуля про аналитические хранилища данных мы посмотрим на пример описаний вакансий инженера данных на hh.ru, linkedin, indeed.com/worldwide. Так же покажу, как я сканирую вакансии и понимаю сходу насколько хорошая или плохая вакансия по описанию. Все верно - "встречают по одежке!"

=========================================

В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.

Из модуля вы узнаете:
📌   Основы аналитических хранилищ данных
📌  MPP vs SMP
📌   Практика с Redshift, Snowflake и Azure Synapse
📌   Облачные ETL инструменты
📌   Обзор вакансий мирового рынка
📌   Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
источник
2021 December 23
Инжиниринг Данных
Небольшое вводное видео к модулю 7 про Apache Spark. В этом видео получилось больше информации про Whistler, BC, чем про сам спарк:)

PS опечатка на скрине, должно быть 7😋
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-1 ВВЕДЕНИЕ
В 7м модуле мы познакомимся с open source решением  для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.

В этом видео еще узнаете про Whistler, BC;)

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
источник
Инжиниринг Данных
Выходит новая книга Data Engineering with AWS, автор книги является Senior Solution Architect в AWS.

Book Description
Knowing how to architect and implement complex data pipelines is a highly sought-after skill. Data engineers are responsible for building these pipelines that ingest, transform, and join raw datasets - creating new value from the data in the process.

Amazon Web Services (AWS) offers a range of tools to simplify a data engineer's job, making it the preferred platform for performing data engineering tasks.

This book will take you through the services and the skills you need to architect and implement data pipelines on AWS. You'll begin by reviewing important data engineering concepts and some of the core AWS services that form a part of the data engineer's toolkit. You'll then architect a data pipeline, review raw data sources, transform the data, and learn how the transformed data is used by various data consumers. The book also teaches you about populating data marts and data warehouses along with how a data lakehouse fits into the picture. Later, you'll be introduced to AWS tools for analyzing data, including those for ad-hoc SQL queries and creating visualizations. In the final chapters, you'll understand how the power of machine learning and artificial intelligence can be used to draw new insights from data.

By the end of this AWS book, you'll be able to carry out data engineering tasks and implement a data pipeline on AWS independently.

What you will learn
-Understand data engineering concepts and emerging technologies
-Ingest streaming data with Amazon Kinesis Data Firehose
Optimize, denormalize, and join datasets with AWS Glue Studio
-Use Amazon S3 events to trigger a Lambda process to transform a file
-Run complex SQL queries on data lake data using Amazon Athena
-Load data into a Redshift data warehouse and run queries
-Create a visualization of your data using Amazon QuickSight
-Extract sentiment data from a dataset using Amazon

Table of Contents
- An Introduction to Data Engineering
- Data Management Architectures for Analytics
- The AWS Data Engineer's Toolkit
- Data Cataloging, Security and Governance
- Architecting Data Engineering Pipelines
- Ingesting Batch and Streaming Data
- Transforming Data to Optimize for Analytics
- Identifying and Enabling Data Consumers
- Loading Data into a Data Mart
- Orchestrating the Data Pipeline
- Ad Hoc Queries with Amazon Athena
- Visualizing Data with Amazon QuickSight
- Enabling Artificial Intelligence and Machine Learning
Book Description
Knowing how to architect and implement complex data pipelines is a highly sought-after skill. Data engineers are responsible for building these pipelines that ingest, transform, and join raw datasets - creating new value from the data in the process.

Amazon Web Services (AWS) offers a range of tools to simplify a data engineer's job, making it the preferred platform for performing data engineering tasks.

This book will take you through the services and the skills you need to architect and implement data pipelines on AWS. You'll begin by reviewing important data engineering concepts and some of the core AWS services that form a part of the data engineer's toolkit. You'll then architect a data pipeline, review raw data sources, transform the data, and learn how the transformed data is used by various data consumers. The book also teaches you about populating data marts and data warehouses along with how a data lakehouse fits into the picture. Later, you'll be introduced to AWS tools for analyzing data, including those for ad-hoc SQL queries and creating visualizations. In the final chapters, you'll understand how the power of machine learning and artificial intelligence can be used to draw new insights from data.

By the end of this AWS book, you'll be able to carry out data engineering tasks and implement a data pipeline on AWS independently.

What you will learn
-Understand data engineering concepts and emerging technologies
-Ingest streaming data with Amazon Kinesis Data Firehose
Optimize, denormalize, and join datasets with AWS Glue Studio
-Use Amazon S3 events to trigger a Lambda process to transform a file
-Run complex SQL queries on data lake data using Amazon Athena
-Load data into a Redshift data warehouse and run queries
-Create a visualization of your data using Amazon QuickSight
-Extract sentiment data from a dataset using Amazon

Table of Contents
- An Introduction to Data Engineering
- Data Management Architectures for Analytics
- The AWS Data Engineer's Toolkit
- Data Cataloging, Security and Governance
- Architecting Data Engineering Pipelines
- Ingesting Batch and Streaming Data
- Transforming Data to Optimize for Analytics
- Identifying and Enabling Data Consumers
- Loading Data into a Data Mart
- Orchestrating the Data Pipeline
- Ad Hoc Queries with Amazon Athena
- Visualizing Data with Amazon QuickSight
- Enabling Artificial Intelligence and Machine Learning


Для тех кому предстоит работать в AWS книга будет очень кстати.
источник
Инжиниринг Данных
В плохом качестве картинка (можно найти по отдельности в хорошем), но передает всю боль индустрии, когда для одной задачи есть сотня тулов, и какой же выбрать🤪
источник
Инжиниринг Данных
Jason Brownlee states that “feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive models, resulting in improved model accuracy on unseen data”
источник
2021 December 24
Инжиниринг Данных
Слышали ли вы про MapReduce? Чаще всего это слово использует при упоминании Hadoop.
источник
Инжиниринг Данных
SeeMTo - новый канал о рациональности, аналитических инструментах и многом другом. Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.

В одном из последних постов обзор «Рациональность: от ИИ до зомби» Юдковского. Автор привел подборку практических инструментов из книги.

На английском: seemto.blog.

PS Пост поддержал приют для собак в Ногинске.
источник
Инжиниринг Данных
Для сравнения цен. Модуль 5 на data learn у нас был про облачные вычисления - совершенно бесплатно. А вот его цена в местном университете 700$. Так что пройдя модуль 5 вы сэкономите приличную сумму=)

Еще из интересно - университет заключил партнерство с Microsoft, и теперь мне нужно выкинуть все про AWS из курса😅
источник
2021 December 25
Инжиниринг Данных
What to Look for in a Great Engineering Leader

the most important trait of an engineering leader is that they must be biased to say “yes”, but willing to say “no”
источник
Инжиниринг Данных
Где-то в комментариях проскакивала информация о замечательном курсе - Distributed Systems in One Lesson. Я собрался силами и прошел его, правда со всеми домашними делами получилось 8 часов, вместо 4х обещанных.

На уроке были рассмотрены базовые вещи для distributed systems и их описание.

В целом курс понравился, несмотря на то, что он 2015 года. Узнал что-то нововое. Наример, не существует понятия "сейчас" и на самом деле все эти привычные вещи systime, now() - очень относительные - There is No Now (Problems with simultaneity in distributed systems)

Его одного конечно не достаточно, надо еще и книжку читать про Designing Data Intensive Application (кстати есть на русском). А еще лучше внедрять решение.

Использование облачных технологий упрощает нашу жизнь, мы как будто outsource решения по дизайну distributed system венндору и сами фокусируемся на бизнес проблеме, но всегда интересно понимать суть происходящего.
источник
2021 December 26
Инжиниринг Данных
В статье Rethinking Cloud Data Architecture, автор рассказывает как он создавал озеро данных на AWS в 2017 году с использование всевозможных сервисов, достаточно подробно.

А сейчас на диаграмма получилась намного меньше с использование Databricks, там и structured streaming, и data warehouse на базе delta lake и много чего.

PS Автор Solution Architect в Databricks, но все равно он не далеко ушел от правды
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Overview of several well-known workflow managers and their key characteristics. (Из книги https://learning.oreilly.com/library/view/data-pipelines-with/9781617296901/)
источник
Инжиниринг Данных
Огонь реклама🤣 Интересно это таргетинг такой на меня настроен🤔 Может у них даталерн за 200 рублей можно купить?
источник
2021 December 27
Инжиниринг Данных
Кто-то составил табличку новых фич для Snowflake. Было бы интересно так посмотреть на остальные продукты, так как все добавляют много новых штук.
источник
Инжиниринг Данных
Всем привет!
Завтра (28 декабря) в 21:00 по мск вебинар :)
Тема: Введение в DBT
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных возможностях
4) о документации в dbt

Ссылка на трансляцию:
https://youtu.be/btaH7P0U_2g
YouTube
ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ
Тема вебинара:
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.

Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных возможностях
4) о документации в dbt
P.S. Для тех кто хочет попрактиковаться во время вебинара необходим python и docker.

Контакты спикера:
https://www.linkedin.com/in/%D1%80%D0%B8%D1%88%D0%B0%D1%82-%D0%BC%D0%B8%D0%BD%D0%B3%D0%B0%D0%B7%D0%BE%D0%B2-5abab3200/





🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥 Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
🔥 Телеграм канал DataLearn:
https://t.me/datalearnru
источник
2021 December 28
Инжиниринг Данных
источник
Инжиниринг Данных
Через 10 минут начинаем:
https://youtu.be/btaH7P0U_2g
YouTube
ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ
Тема вебинара:
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.

Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных возможностях
4) о документации в dbt
P.S. Для тех кто хочет попрактиковаться во время вебинара необходим python и docker.

Контакты спикера:
https://www.linkedin.com/in/%D1%80%D0%B8%D1%88%D0%B0%D1%82-%D0%BC%D0%B8%D0%BD%D0%B3%D0%B0%D0%B7%D0%BE%D0%B2-5abab3200/





🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥 Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
🔥 Телеграм канал DataLearn:
https://t.me/datalearnru
источник