Телеграмм чат группы rockyourdata страница 126

Size: a a a

Инжиниринг Данных

7570 membersпожаловаться на группу

2021 June 05

Инжиниринг Данных

8-9 июня Snowflake Summit, можно узнать что нового в индустрии и куда cloud analytics двигается.

Snowflake

Summit 2021 | Snowflake

Join thousands of your peers at Snowflake’s two day virtual user conference. Hear from technology experts, partners, and customers, while engaging in over 50 breakout sessions and workshops.

источник

40008:41пожаловаться #1

Инжиниринг Данных

Сегодня сдал еще один экзамен Azure Data Fundamentals (DP-900), в прошлом комментарии один из читателей про него рассказал.

Оказался довольно простым и практически не про облака, больше про классические аналитические вещи типа ETL/ELT, Batch/Streaming. И часть вопросов про инструменты Azure для аналитики HDIsight, Synapse Analytics, Azure SQL, Azure Blob и Azure Cosmos DB (тут я наугад отвечал).

Материал по подготовки очень хороший и небольшой, стоит того, чтобы проскролить, покрывает базовые вещи по аналитики.

источник

36808:47пожаловаться #2

2021 June 06

Инжиниринг Данных

Чувак рассказывает как он стал менеджером по аналитике в Амазон и делится советами как быть начинающему менеджеру.

Insight Extractor - Blog

Three stories about my managerial journey published on Plato | Insight Extractor - Blog

I wanted to share 3 stories that Plato (engineering leadership mentorship platform) recently published about my managerial journey. It captures some learnings in career growth, productivity, team process and sharing the team vision. Links below. (1) How to drive a team vision as First-time manager? Paras recalls how he successfully drove a team vision as…

источник

122909:03пожаловаться #3

Инжиниринг Данных

8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.

У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!

Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!

PS CI/CD pipeline уже работает!

источник

188920:59пожаловаться #4

2021 June 07

Инжиниринг Данных

Почему delta lake так называется?

источник

149321:03пожаловаться #5

Инжиниринг Данных

Всем привет. Думаю, предыдущую рубрику можно закрывать. Я постарался охватить все основные направления работы с данными и дать пошаговый план развития с полезными ссылками для каждой позиции.

Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.

Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.

Итак, поговорим о концепциях.

Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:

1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).

Разберём каждый слой подробнее:

Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.

Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.

Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.

Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.

Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.

Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.

Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.

Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.

источник

139521:14пожаловаться #6

Инжиниринг Данных

Переслано от Freaking Mind

Можно получить любой learning path на Databricks абсолютно бесплатно, если применить код "DB_CE" при чекауте.

https://academy.databricks.com/learning-paths

Доступны следующие треки:

Business Leader
Platform Admin
SQL Analyst
Data Engineer
Data Scientist

Так они стоят, вроде, $2000.

источник

157621:18пожаловаться #7

2021 June 08

Инжиниринг Данных

Умный дядька рассказывает как они делали крутые вещи много лет назад в FedEx и Netscape

YouTube

The Power of Networks | Jim Barksdale | TEDxJackson

Network theory concepts explain the dramatic impact of technology-based businesses during the last century. They also describe common threads in the remarkable career of Jim Barksdale. His talk weaves his groundbreaking and enduring ideas about management through three of his rocket-rides at the forefront of global business disruptions.

Jim is chairman of the board and president of Barksdale Management Corporation, a private company that manages his investments and philanthropic activities. He also serves as chairman of Spread Networks, a company he helped establish in 2009. Jim has more than 35 years of operational experience. He served as president and CEO of Netscape Communications Corp. from January 1995 until the company merged with America Online in March 1999. He was director of Netscape from October 1994. Upon completion of the merger with America Online, Jim joined Time Warner’s board of directors. Prior to Netscape, Jim was CEO of AT&T Wireless Services (formerly McCaw Cellular Communications). From…

источник

82808:24пожаловаться #8

Инжиниринг Данных

Давно хотел написать пост с небольшой подборкой видео про производительность и скорость загрузки в Табло, а тут такой отличный повод — Табло выложили классный документ про подходы по оптимизации рабочих книг. Мастхев для всех разработчиков Табло.

А вот материалы по этой теме, которые нашёл недавно:
— Свежая Tableau User Group Оклахома по теме производительности
— Детальный разбор какие запросы генерит Табло к БД и как это влияет на перформанс
— Рассказ про оптимизацию дашбордов и чит-шит на Табло Паблик

#ссылка

источник

126918:30пожаловаться #9

Инжиниринг Данных

источник

127218:30пожаловаться #10

Инжиниринг Данных

источник

127218:30пожаловаться #11

Инжиниринг Данных

источник

127218:30пожаловаться #12

Инжиниринг Данных

через 10 минут начинаем:
https://youtu.be/gBq5XarMhfM

YouTube

Databricks - унифицированная Lakehouse платформа для ETL, ML и BI нагрузок / Иван Трусов

Многие компании сталкиваются с различными проблемами при построении унифицированной платформы для работы с данными.
На этом вебинаре Иван Трусов, Solution Architect в Databricks расскажет как с помощью Databricks можно быстро и эффективно создать такую платформу на облачных технологиях, а так же о новом подходе к построению архитектуры многоцелевых хранилищ данных под названием Lakehouse.

Информация о спикере:
Иван имеет 6 лет опыта реализации проектов в сферах ML и Data Engineering в таких компаниях как MTS, Beeline, Sberbank и Zalando, а так же является автором Telegram канала Anscombes Quartet. Его ключевые технические компетенции - в областях Data Engineering (в особенности Streaming ETL и Delta Lake), а так же в ML (Model Serving, MLOps).

--------------------------------------------------------------------------------------------------------------
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!…

источник

163318:50пожаловаться #13

2021 June 09

Инжиниринг Данных

источник

170020:03пожаловаться #14

2021 June 10

Инжиниринг Данных

https://mattturck.com/data2020/

Matt Turck

Resilience and Vibrancy: The 2020 Data & AI Landscape

In a year like no other in recent memory, the data ecosystem is showing not just remarkable resilience but exciting vibrancy.

When COVID hit the world a few months ago, an extended period of gloom seemed all but inevitable. Yet, as per Satya Nadella, “two years of digital transformation [occurr

источник

126300:22пожаловаться #15

Инжиниринг Данных

Топ 10 анонсов (на самом деле 11) с конференции Data+AI (databricks)
- Delta Lake 1.0 (Полноценное DWH на озере данных)
- Delta Sharing (догоняют Snowflake с их фичей Data Sharing?)
- Delta Live Tables (удобство ETL)
- Early Release: Delta Lake Definitive Guide by O’Reilly (Книга про Delta Lake, уже присылал вам)
- Unity Catalog (каталог данных, must have для любого проекта)
- Databricks SQL: improved performance, administration and analyst experience (SQL наше все!)
- Lakehouse momentum (Lakehouse подход сейчас самый популярный подход в мировых компаниях, рецепт просто: DW+Data Lake + Cloud Computing)
- Koalas is being merged into Apache Spark (Koalas это как pandas на стероидах)
- Machine Learning Dashboard (разделили workspace для ML и DE)
- Machine Learning Feature Store (про feature store мы не раз тут обсуждали, нужная и удобная штука)
- AutoML with reproducible trial notebooks (надо быть в тренде!)

Databricks

Top 10 Announcements from Databricks Data + AI Summit 2021

Couldn’t make it to this year’s event or missed some sessions? No worries, we’ve got the TL;DR for you in one place. Continue to the blog for 10 key announcements from the event, including the latest updates to Apache Spark, Delta Lake, MLflow and Databricks.