Size: a a a

Инжиниринг Данных

2021 June 05
Инжиниринг Данных
8-9 июня Snowflake Summit, можно узнать что нового в индустрии и куда cloud analytics двигается.
источник
Инжиниринг Данных
Сегодня сдал еще один экзамен Azure Data Fundamentals (DP-900), в прошлом комментарии один из читателей про него рассказал.

Оказался довольно простым и практически не про облака, больше про классические аналитические вещи типа ETL/ELT, Batch/Streaming. И часть вопросов про инструменты Azure для аналитики HDIsight, Synapse Analytics, Azure SQL, Azure Blob и Azure Cosmos DB (тут я наугад отвечал).

Материал по подготовки очень хороший и небольшой, стоит того, чтобы проскролить, покрывает базовые вещи по аналитики.
источник
2021 June 06
Инжиниринг Данных
Чувак рассказывает как он стал менеджером по аналитике в Амазон и делится советами как быть начинающему менеджеру.
источник
Инжиниринг Данных
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.

У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!

Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!

PS CI/CD pipeline уже работает!
источник
2021 June 07
Инжиниринг Данных
Почему delta lake так называется?
источник
Инжиниринг Данных
Всем привет. Думаю, предыдущую рубрику можно закрывать. Я постарался охватить все основные направления работы с данными и дать пошаговый план развития с полезными ссылками для каждой позиции.

Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.

Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.

Итак, поговорим о концепциях.

Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:

1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).

Разберём каждый слой подробнее:

Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.

Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.


Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.

Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.


Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.

Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.


Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.

Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
источник
Инжиниринг Данных
Переслано от Freaking Mind
Можно получить любой learning path на Databricks абсолютно бесплатно, если применить код "DB_CE" при чекауте.

https://academy.databricks.com/learning-paths

Доступны следующие треки:

Business Leader
Platform Admin
SQL Analyst
Data Engineer
Data Scientist

Так они стоят, вроде, $2000.
источник
2021 June 08
Инжиниринг Данных
Умный дядька рассказывает как они делали крутые вещи много лет назад в FedEx и Netscape
источник
Инжиниринг Данных
Давно хотел написать пост с небольшой подборкой видео про производительность и скорость загрузки в Табло, а тут такой отличный повод — Табло выложили классный документ про подходы по оптимизации рабочих книг. Мастхев для всех разработчиков Табло.

А вот материалы по этой теме, которые нашёл недавно:
— Свежая Tableau User Group Оклахома по теме производительности
Детальный разбор какие запросы генерит Табло к БД и как это влияет на перформанс
— Рассказ про оптимизацию дашбордов и чит-шит на Табло Паблик

#ссылка
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
через 10 минут начинаем:
https://youtu.be/gBq5XarMhfM
YouTube
Databricks - унифицированная Lakehouse платформа для ETL, ML и BI нагрузок / Иван Трусов
Многие компании сталкиваются с различными проблемами при построении унифицированной платформы для работы с данными.
На этом вебинаре Иван Трусов, Solution Architect в Databricks расскажет как с помощью Databricks можно быстро и эффективно создать такую платформу на облачных технологиях, а так же о новом подходе к построению архитектуры многоцелевых хранилищ данных под названием Lakehouse.

Информация о спикере:
Иван имеет 6 лет опыта реализации проектов в сферах ML и Data Engineering в таких компаниях как MTS, Beeline, Sberbank и Zalando, а так же является автором Telegram канала Anscombes Quartet. Его ключевые технические компетенции - в областях Data Engineering (в особенности Streaming ETL и Delta Lake), а так же в ML (Model Serving, MLOps).

--------------------------------------------------------------------------------------------------------------
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!…
источник
2021 June 09
Инжиниринг Данных
источник
2021 June 10
Инжиниринг Данных
источник
Инжиниринг Данных
Топ 10 анонсов (на самом деле 11) с конференции Data+AI (databricks)
- Delta Lake 1.0 (Полноценное DWH на озере данных)
- Delta Sharing (догоняют Snowflake с их фичей Data Sharing?)
- Delta Live Tables (удобство ETL)
- Early Release: Delta Lake Definitive Guide by O’Reilly (Книга про Delta Lake, уже присылал вам)
- Unity Catalog (каталог данных, must have для любого проекта)
- Databricks SQL: improved performance, administration and analyst experience (SQL наше все!)
- Lakehouse momentum (Lakehouse подход сейчас самый популярный подход в мировых компаниях, рецепт просто: DW+Data Lake + Cloud Computing)
- Koalas is being merged into Apache Spark (Koalas это как pandas на стероидах)
- Machine Learning Dashboard (разделили workspace для ML и DE)
- Machine Learning Feature Store (про feature store мы не раз тут обсуждали, нужная и удобная штука)
- AutoML with reproducible trial notebooks (надо быть в тренде!)
источник
Инжиниринг Данных
источник
Инжиниринг Данных
У нас уже готово 2ое интервью - DATALEARN | ИНТЕРВЬЮ С ЕВГЕНИЙ РЕБРИКОВОЙ (МЕНЕДЖЕР ПО АНАЛИТИКЕ В "БАЛТИКА"
от нашего сообщества “Women in data” (можно добавиться в отдельный канал slack).

Если вы пропустили прошлое интервью, то вот ссылка - DATALEARN | ИНТЕРВЬЮ С КСЕНИЕЙ ПЕВЗНЕР, РУКОВОДИТЕЛЬ МАРКЕТИНГОВОЙ АНАЛИТИКИ ОНЛАЙН КИНОТЕАТРА ОККО

PS Какие же девушки крутые! 💪🚀
YouTube
DATALEARN | ИНТЕРВЬЮ С ЕВГЕНИЙ РЕБРИКОВОЙ (МЕНЕДЖЕР ПО АНАЛИТИКЕ В "БАЛТИКА"
Интервью менеджера по аналитике эффективности инвестиций в пивоваренной компании “Балтика” Евгении Ребриковой каналу DataLearn. Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.

Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
yana.odintsov@gmail.com

🔔 Подписывайтесь на канал "Data Learn" чтобы не пропустить остальные части и ставьте лайки!

⚠️ КУРС БЕСПЛАТНЫЙ!

🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять практические задания,  получать значки за каждый пройденный модуль и финальный сертификат о прохождения курса.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
В тему  про безопасность данных в облаке https://www.wired.com/story/dating-apps-leak-explicit-photos-screenshots
источник