Size: a a a

Инжиниринг Данных

2021 October 29
Инжиниринг Данных
У нас в slack есть канал data_news_from_the_world. Я его подписал на RSS разных тематических компаний и вендоров. Там даже была новость clickhouse.

Netflix опубликовал интервью с Data Engineer. Вообще Netflix платит топовые зарплаты, но и спрос соответствующий. У них есть безлимитный отпуск, но никто им не пользуется (безлимитным).

У них есть целый раздел посвященный data engineering https://netflixtechblog.com/tagged/data-engineering

Есть ещё книга про компанию Netflix, там хорошо раскрыты подходы к найму лучших сотрудников и их удержание.
источник
Инжиниринг Данных
🚀 Примите участие в онлайн-соревновании BCS Coding Days от «БКС Мир инвестиций» и Фонда «Сколково».

BCS Coding Days — это задачи для системных аналитиков, Android и Java-разработчиков с призовым фондом 1 500 000 рублей. Соревнование пройдёт с 4 по 5 декабря онлайн.

Трек для Системных аналитиков:

Вам будет предложено 4 реальных кейса:
- инструментарий для гибкой настройки портфеля;
- сервис «Обмен ПИФ»;
- подбор и анализ финансовых инструментов;
- онбординг новых пользователей.

Таймлайн BCS Coding Days:
- В преддверии соревнования посетите митапы с экспертами рынка;
- С 4 по 5 декабря решайте задачи, участвуйте в чек-поинтах и стрим-конференции с экспертами «БКС Мир инвестиций»;
- 7 декабря презентуйте свое решение и выиграйте главные призы.

Поборитесь за главный приз и возможность получить offer от «БКС Мир инвестиций».

👉 Успейте подать заявку до 3 декабря по ссылке: https://clck.ru/YWPaH

PS Пост поддержал приют для собак Зоорассвет в Москве
источник
Инжиниринг Данных
Красивая презентация про modern data stack
источник
2021 October 30
Инжиниринг Данных
источник
Инжиниринг Данных
5ти часовой вводный курс - Algorithms and Data Structures Tutorial
источник
2021 November 01
Инжиниринг Данных
Отличная презентация 2018 года - KISS (Keep it SQL, Stupid) про подход к созданию аналитических решений от создателей dbt tool. https://youtu.be/9VNh11qSfAo
источник
2021 November 02
Инжиниринг Данных
Данные бывают:
- Structured - табличный вид
- Semi-Structured - XML, JSON, и тп
- Unstructured - Video, Image, Text, Audio. (На примере web логи, и мы можем их часточно структурировать, через пробел, поэтому не самый лучший пример)
источник
Инжиниринг Данных
В октябре вышла новая книга с громким названием - Data Engineering with Spark, Delta Lake, and Lakehouse

Section 1: Modern Data Engineering And Tools
Chapter 1: The Story Of  DE And Analytics
Chapter 2: Storage And Compute Data Lakes
Chapter 3: Data Engineering On Azure


Section 2: Data Pipelines And Stages Of DE
4: Understanding Data Pipelines
5: Data Collection Stage
6: Understanding Delta Lake
7: Data Curation Stage
8: Data Aggregation Stage


Section 3: DE Challenges And Effective Deployment Strategies
9: Deploying And Monitoring Pipelines
10: DEChallenges
11: Infrastructure Provisioning
12: Continuous Integration And Deployment (CI/CD)


Я просмотрел всю книгу, в книге есть end-to-end case про создание аналитического решения на Azure с использованием Databricks и Data Factory. В книге мы не найдем best practices или глубокой информации по созданию решений, но есть хорошие примеры, которые помогут начать работать с Azure Data Platform.
источник
Инжиниринг Данных
В ноябре получится выступить на игровой конференции и рассказать про аналитику для AAA игр https://devgamm.com/fall2021/
источник
Инжиниринг Данных
Недавно facebook запустил Metaverse и Microsoft тоже активно работает в этом направлении. На Microsoft Ignite 2021 они показали продукт Mesh для Team. Пока входной порог очень высокий так как устройство дорогое. И вообще интересно применение, это должно быть новое поколение людей для кого это будет нормой, я себя не вижу в таком девайсе, мне лучше по старинке с выключенной камерой сидеть на митинге и заниматься своими делами😇

А вы бы хотели тусить в metaverse?
источник
Инжиниринг Данных
Хоть у роботов повеслей https://youtu.be/XnZH4izf_rI
источник
Инжиниринг Данных
В 6 модуле я рассказывал как современные аналитические платформы мериются ..... производительностью😜

Они используют TPC дата сеты, и даже в модуле 6 про Redshift ученики должны были нагенирить несколько гигабайтов данных с помощью утилитки и загрузить в Redshift.

А сегодня Databricks сказал, что уделал Snowflake в 12 раз! - Databricks Sets Official Data Warehousing Performance Record
используя TPC-DS датасет.

То есть, еслы вы хотите вписаться в топ лигу аналитических БД, вам просто нужно взять данных TPC-DS, примерно одинаковые типы нод и запустить тест. Ждем от clikchouse что-то похожее.

Вообще все напали на Snowflake - Azure SQL DW быстрей и дешевле, Firbolt быстрей и дешевле, и теперь еще и Databricks.

Тут стоит добавить, что Snowflake позиционирует себя Data Warehouse as a Service (SaaS), то есть при загрузке данных по умолчанию мы не оптимизируем индекса, распределение данных и ключи. Поэтому он работает хорошо, но явно может лучше, если мы будем тюнить каждую таблицу.  

Вообще скорость и цена облачный решения это все очень относительно, но отлично работает для маркетинга и главное любой желающий может повторить эксперимент
источник
2021 November 03
Инжиниринг Данных
Я слышал много раз про состояние потока “flow”, но не знал откуда это пошло и только узнал из новости Mihaly Csikszentmihalyi, the Father of ‘Flow,’ Dies at 87

Вот его книга - Flow: The Psychology of Optimal Experience

Неплохой отзыв про книгу:
One of the best books you will ever read, if you can pick only 5 books to read in your life this would be one of those! The author simply asked "What makes a life worth living?" It's clearly nothing that money can buy. The book is about how people find pleasure and lasting satisfaction in activities that bring them in a state the author calls "flow." Super interesting book, can't recommend it enough.
источник
Инжиниринг Данных
Не люблю формальные определения и всю эту мишуру. Но тем не менее бывают достаточно полезные знания, которые позволяют яснее излагать свои мысли при описании требований к построению хранилищ данных. Одним из таких формальных определений является SCD (Slowly Changing Dimensions) - это такие данные которые могут меняться со временем, и на самом деле у нас есть целых 3 способа зафиксировать измнения.

Пример данных которые могут измениться

+--------+------------+-------------------+
| Имя | Дата рождения | Должность         |
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник |
+--------+------------+-------------------+


SCD1 - честно выполняем UPDATE данных и теряем историю

+--------+------------+-------------------+
| Имя | Дата рождения | Должность    
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Специалист
+--------+------------+-------------------+


SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Должность         | Дата события
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | 2001-01-01
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Специалист        | 2002-01-02
+--------+------------+-------------------+-------------------+


SCD3 - добавляем новое значение как колонку (редко используемое)

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Пред. Должность   | Новая Должность
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | Специалист
+--------+------------+-------------------+-------------------+


#собеседование
источник
Инжиниринг Данных
Amazon SageMaker теперь имеет RStudio.
источник
Инжиниринг Данных
Издатель присылает теперь такие вот отчеты, по моим книгам. Хороший пример аналитики и клиентоориентированый подход. Это они в первый раз такое прислали, раньше надо было смотреть самому все.

Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.

Если вы хотите написать книгу то есть моя презентация как это сделать

Единственный минус вы ничего не заработаете, все забирает издатель.
источник
2021 November 04
Инжиниринг Данных
Прикольная футболка, подумал я, когда увидел в linkedin. А потом я вспомнил, что это значит. Мой сосед data scientist из LA, профессор математики и возможно выступит у нас на митапе однажды. Он отказался от работы в Netflix, Google и Facebook. Мы с ним ходим в бассей, смотрим ML конференции от Microsoft и он много рассказывает про политику в Америке. Как я понял Байдена очень не любят там. Мне он кажется вообще не живым по новостям.

Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат  "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
источник
Инжиниринг Данных
Netflix смог очень быстро запустить игры. Fast time to market. https://www.gamedeveloper.com/business/netflix-games-is-launching-on-november-3
источник
Инжиниринг Данных
Товарищ создал Sandbox проект себе, вот что он включил в него. Я знаю только dbt, preset, great expectations, airbyte, big query, google analytics. И слышал про activity schema.

Avo - Data sourcing planning
Google Analytics 4
elbwalker - tool for testing sourcing
RudderStack
Klaro - open source consent management
GTM
Airbyte
BigQuery
dbt Labs
Activity Schema
Datahub
Castor - automatic sources schemas and the magic automation
Soda - test-driven data modelling.
Great Expectations
Lightdash
Preset
Census
источник
Инжиниринг Данных
А это чтобы английский практиковать - https://www.dataengineeringpodcast.com/episodes/

Возможно один из самых популярных подкастов, в последнем выпуске говорят про Activity Schema.
источник