Size: a a a

Инжиниринг Данных

2021 January 07
Инжиниринг Данных
Самая крутая Data компания Snowflake сделало 10 предсказаний по аналитике на 2021:
Trend #1: The value of data will rise exponentially
Trend #2: The rise of the Data Cloud - Рассвет The Data Cloud
Trend #3: Modernization beyond the data warehouse
Trend #4: Governance continues to be a top concern
Trend #5: So long, data lakes/warehouses
Trend #6: Collaboration goes mainstream
Trend #7: Analytics democratization becomes attainable
Trend #8: Data processing is available to all
Trend #9: Every app becomes a data app
Trend #10: A single platform for data becomes the solution

В общем без данных, а тем более без правильного места для их хранения (в облаке) и нормальным доступом (sql) вообще никуда. Если вы еще не купили Snowflake, то обязательно купите! Это я вам говорю как эсперт по снего из холодной Канады, несмотря на то, что я живу в самом теплом городе Канады (Виктория), где и снега то нет🤫
источник
Инжиниринг Данных
Получил приятный подарок из Киева от подписчика Александра Чернина - Кофе Data Learn. Кофе оказался очень вкусным, несмотря на то, что посылка шла довольно долго. Случайно забили указать номер дома. Но так как почта к нам ходит с посылками от Amazon Prime очень часто, смогли меня опознать по имени и найти мой дом.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Снова предлагает бесплатно попробовать экзамены Google Cloud Associate Cloud Engineer Practice Exams
источник
Инжиниринг Данных
Попался интересный и полезный white paper от Microsoft, особенно для HR или бизнеса - The scientist, the engineer and the warehouse – implementing cloud analytics
источник
Инжиниринг Данных
5 свежих Tableau Hacks!
источник
2021 January 08
Инжиниринг Данных
Чтобы получить канадское гражданство, нужно сдать тест на знание истории Канады, прав, законов, государственного строя, населения и много еще чего. Если кому интересно посмотреть факты про Канады, то вы найдете их в этой небольшой брошюре.
источник
Инжиниринг Данных
Для тех, кто регистрировался на https://datalearn.ru :
Мы обнаружили, что многие из вас не знают про то, что у нас есть гит и думают что у нас только уроки на ютубе.

Ютуб без гита бесполезен...

В слаке многие из вас не знают что у нас много каналов и каждый канал посвящен своей теме и на самом деле все очень удобно

В связи с этим всем вопрос: накидайте предложения как сделать навигацию удобной, чтобы люди те кто регистрировались знали про слак и гит, может подскажите где лучше всего на сайте разместить инфу.
источник
Инжиниринг Данных
Часто-задаваемые вопросы про Tableau & Power BI на собеседованиях
источник
Инжиниринг Данных
источник
2021 January 09
Инжиниринг Данных
Февраль 2013 года, начало облачного DW. В приложение paper про Amazon Redshift.
источник
Инжиниринг Данных
Очень крутая статья про hiring. Кстати, согласно этой статье, самые крутые data scientist - музыканты.

Еще интересная история про compensation:

Once you’ve made an offer and hired someone, you need to keep assessing compensation. I learned this during a period when Netflix was losing people because of exorbitant offers from our competitors. One day I heard that Google had offered one of our folks almost twice his current pay, and I hit the roof. He was a really important guy, so his manager wanted to counter. I got into a heated e-mail exchange with his manager and a couple of VPs. I wrote, “Google shouldn’t decide the salaries for everybody just because they have more money than God!” We bickered for days. They kept telling me, “You don’t understand how good he is!” I was having none of it.

But I woke up one morning and thought, Oh, of course! No wonder Google wants him. They’re right! He had been working on some incredibly valuable personalization technology, and very few people in the world had his expertise. I realized that his work with us had given him a whole new market value. I fired off another e-mail: “I was wrong, and by the way, I went through the P&L, and we can double the salaries of everybody on this team.”
... “We also encouraged our employees to interview elsewhere regularly. That was the most reliable and efficient way to learn how competitive our pay was.

Это реально классно, когда можно агрументировать свою зарплату, сколь ты заработаешь денег компании. Я вот не могу, отсюда мои трудности с переговорами. Моих агрументов, что на рынке получают (быстренько гуглю максимум) X, и я получаю тот же X (+ бонусы конечно) не всегда прокатывает, и максимум, что можно получить это X - 20%-30%, что по факту будет на 50% больше текущей зарплаты. Но это не тот заветный X, о котором мечталось…

Получается, чтобы много зарабатывать недостаточно быть data engineer/scientist или manager. Нужно понимать как мы можем добавить ценности компании, почему они должны нам платить выше рынка и тп. С этой точки зрения вопрос зарплаты и ее размера становиться очень прозрачным.
источник
Инжиниринг Данных
A Guide to Creating Dashboards People Love to Use

Хороший гайд по разработке дашбордов. Всего понемногу и по делу, в институте такое называли методичкой. Только картинки устаревшие, так как выпущена 10 лет назад, но принципы это не отменяет. =)

#ссылка
источник
Инжиниринг Данных
У PacktPub есть классная возможность быть техническим ревьевером. Например, сейчас я проверяю 2 книги:
- Machine Learning Engineering with MLFlow - Я не использовал ML flow вообще никогда, и это будет отличная возможностью изучить технологию и пройти все упражнения
- Cloud scale analytics with Azure Data services - Тут наоборот, я хорошо знаю Azure Data Platform и больше сканирую книгу на здравый смысл.

Так же они еще предлагали проверять книгу по AWS Glue, но я уже переключился на Azure. И Еще была книга про Power Platform. В общем, если вы хорошо шарите в современных технологиях, то можете написать  Arindam Majumder <arindamm@packt.com>arindamm@packt.com> ему часто нужно технические ревьеверы, и возможно еще нужны по Glue, MLflow и Azure. И можно в PacktPub добавить свой профайл, чтобы приходили.

PS За это не платят, но для меня это удобный способ свежие книги читать по теме.
источник
2021 January 10
Инжиниринг Данных
источник
2021 January 11
Инжиниринг Данных
Excel cheatsheet
источник
Инжиниринг Данных
В своем докладе про 5 лет в Амазон я рассказывал про один из ключевых моментов для ML и Data Engineering проектов - data quality. Так как мы использовали Spark (поверх Elastic Map Reduce aka Hadoop) для feature engineering, то для качества данных и unit tests использовали (и продолжают использовать в Амазоне) библиотеку Deequ, которая была написана на Scala. А сейчас вышла версия для Python - PyDeequ. Если у вас ETL на Spark, то для вас это самое главное решение по качеству данных. Ну для DataBricks и Delta Lake подойдет.
источник
Инжиниринг Данных
Пока мы в свои 20-30+ думаем, чем бы нам заниматься и где развиваться, некоторым удается в 10 лет сделать больше😜 Я в 10 лет мог из лего замок построить, кстати он еще со мной в Канаде, мое приданное. И он стоит на Ebay 500US$ (собранный). Лего еще та инвестиция! Вообще с лего интересно получилось, все свое лего так бережно берег для своих детей, а оно у них повсюду валяется, все перемешано и сломано… Но замок лежит в гараже до лучших времен.☺️
источник
Инжиниринг Данных
В последнем видео про ETL я рассказывал про ETL подсистемы и одна из них называлась Late Arriving Dimensions. Скрывать не буду, особо никогда не пользовался этим подходом. Вот довольно простое видео от Matillion на примере Snowflake.  

А если у вас не хранилище данных, а озеро, в нашем примере delta lake, то там тоже можно реализовать этот подход.
источник
Инжиниринг Данных
Сравнение Delta Lake и Apache Hudi (заодно и расскажут, что это такое).
источник