Size: a a a

Инжиниринг Данных

2021 October 06
Инжиниринг Данных
источник
Инжиниринг Данных
Analytics adoption - what works?

The mind map in the figure below outlines the key ingredients for the successful deployment of BI and analytics capabilities.

The six key drivers of analytics adoption are ease of use, performance, training, data quality, coaching, and culture. Each category, in turn, has three contributing factors.

Organizations need a strategy to address each of these 18 factors if they want to maximize the adoption of BI and analytics capabilities.
источник
Инжиниринг Данных
источник
2021 October 07
Инжиниринг Данных
источник
Инжиниринг Данных
Получите инсайды Microsoft от самих разработчиков на онлайн-конференции Day of the DEVs 12 октября.

Регистрация на ключевые треки онлайн-конференции Day of the DEVs от Microsoft в партнёрстве с Softline уже открыта!

Трек «Data&AI для приложений»

Российские и зарубежные эксперты Microsoft расскажут о концепциях MLOps — ML+DevOps, и как организовать работу Data scientist.
Зарегистрироваться бесплатно⟶
https://bit.ly/3uPZVmq

PS Пост поддержал приют Зоорассвет в Москве.
источник
Инжиниринг Данных
Привет всем! Пару идей, для которых нужны добровольцы. Как обычно все бенефиты получают добровольцы😊

1. Как обычно, это вебинары. Для data learn нам часто нужны базовые и простые вещи. Вот какие темы интерсны:
- Обзор хранилищ данных, ETL, BI (Apache Airflow, Apache Kafka, Flink, Greenplum, ClickHouse, Alteryx, DataRobot, Apache Superset) - это из тех которые на слуху. Работаете с ними, так расскажите другим, что это, для чего, как работает. Это полезно для вашей карьеры. Ну и для кармы 😜

2. Как совершенствовать язык? Один из вариантов - это делать переводы, а если эти переводы добавлять на хабр, то будем много просмотров и активностей. Так делают платные курсы, чтобы их впарить продать несмышленному читателю. Но я хочу для другого. В индустрии есть очень хорошие статья, иногда у меня есть хорошие документы, которые можно перевести и добавить на хабр. Вы как автор, можете перевести и добавить от себя, просто укажете data learn. Это поможет будущим студентам в изучении материала. Так что, если хотите попрактиковаться, то самое время🤗

3. Вчера мы первый раз делали Zoom сессия (в 7 утра по Москве!!), где мы решали 2 тестовых задания от западных компаний - SQL и Python. Запись потом будет. Спасибо всем, кто пришел. Лично я провел время очень хорошо и с пользой. Мы планируем делать такие  сессия 2 раза в неделю, где будем решать задачки или делать тестовые задания для собеседований. Народ пришел из разных уголков мира.
источник
Инжиниринг Данных
Товарищ собрал лучшие книги для Product Management https://centroly.com/anthonytd/top-product-management-books-and-guidebooks-3p2l5zle01

Интересный ресурс, позволяет делать такие вот mindmap из ссылки, можно datalearn так сделать или просто книги и курсы по рекомендациям.
источник
Инжиниринг Данных
Сегодня меня попросили посмотреть, почему отчет Power BI не подключается к Spark. Когда я его открыл, OH MY GOSH (как говорят канадцы), на меня смотрел пончик график (донат), в котором было больше 30 разноцветных кусочков, и как у ежика торчат сноски во все сторны с обрубленным текстом. И это график занимает 30 процентов дашборда. Сразу вспомнилась эта картинка
источник
2021 October 08
Инжиниринг Данных
Apache Airflow является абсолютным лидером open source ETL, вот несколько свежих статей:

Blue-Green ETLs with Airflow Task Groups
Storyblocks writes about adopting the Blue-Green ETL model with Airflow on its Redshift data warehouse. The load and swap in the mutable pipeline is always a challenge, and it's great to see the Blue-Green deployment pattern adoption.

The Airflow Smart Sensor Service
Airflow poking sensor implementation is a resource-intensive operator that will keep running until the specified condition is satisfied. Airbnb writes about the impact of smart sensors on its Airflow infrastructure. With deduplication, it reduces 40% of the load from the Hive meta store.

How to Run Apache Airflow on Kubernetes at Scale
DoorDash writes an exciting blog narrating its migration of Airflow from a single instance infrastructure to KubernetesPodOperators. The blog states the higher memory availability of the Airflow scheduler after offloading the operator workloads to Kubernetes.
источник
Инжиниринг Данных
А если вы работаете с Google Bigquery, то вам может быть интересно посмотреть эти 2 статьи.

Give meaning to 100 billion analytics events a day
In this article, we describe how we orchestrate Kafka, Dataflow and BigQuery together to ingest and transform a large stream of events. When adding scale and latency constraints, reconciling and reordering them becomes a challenge, here is how we tackle it.

Managing a BigQuery data warehouse at scale
In this article, we’ll give more details on how we manage our BigQuery data warehouse and especially how we monitor and manage three important topics:
->Slow queries
->Slots usage
->Table and field sizes
источник
2021 October 09
Инжиниринг Данных
backlog is on 🔥
источник
Инжиниринг Данных
После Xbox Series X, Windows 11 и Surface неожиданно появилась  мышка, вы же думаете об экологии? Будем ждать Xbox и Surface из переработанного пластика. Кстати, уже сейчас все новые продукты Microsoft  должны быть максимально переработаны.
источник
Инжиниринг Данных
Первый перевод для нашего аналитического сообщества готов! Очень интересная статья, а главное полезная и актуальная - Хранилища признаков: Сторона данных в конвеерах машинного, которая расскажет нам про Feature Store и Featurization по русски.

Про Автора: Эмиль Богомолов, инженер-исследователь в научной группе ADASE в Сколтехе, энтузиаст в сфере анализа данных и компьютерных наук, преподаватель курсов по машинному обучению и автор статей на международных конференциях и на просторах интернета.

Эмиль проделал большую работу для вас, оставьте ему + на хабре!!🙏 Мы же сообщество и должны помогать друг другу быть успешней и умней!
источник
Инжиниринг Данных
Не давно я рассказывал, что мне нужно было проверить программу applied data science и big data, 8 месяцев, 5 дней в неделю, за 15000 баксов. А сегодня я посетил класс. Я просто поделюсь фотографиями😬 я бы там не стал бы 8 месяцев учиться, если бы мне заплатили 15штук. Интересно, а какие помещения у ваших онлайн курсов?
источник
Инжиниринг Данных
источник
2021 October 10
Инжиниринг Данных
ETL Pipelines with Airflow: the Good, the Bad and the Ugly

In this article, we review how to use Airflow ETL operators to transfer data from Postgres to BigQuery with the ETL and ELT paradigms. Then, we share some challenges you may encounter when attempting to load data incrementally with Airflow DAGs. Finally, we argue why Airflow ETL operators won’t be able to cover the long tail of integrations for your business data.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Сказка ложь, да в ней намек🤣
источник
Инжиниринг Данных
Не самый свежий пост, но до сих пор актуальный - Building The Analytics Team At Wish
источник
2021 October 11
Инжиниринг Данных
Очень классный пост про было-стало. В данном случае оптимизация костов Snowflake в облаке. Очевидный факт, Snowflake - Data Warehouse as Services (SaaS - Software as a service is a software distribution model in which a cloud provider hosts applications and makes them available to end users over the internet.), облака у нас эластичные (The purpose of Elasticity is to match the resources allocated with actual amount of resources needed at any given point in time.)

Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.

Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)

Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
источник