Size: a a a

Инжиниринг Данных

2022 February 09
Инжиниринг Данных
Личный бренд - нужен или не нужен? А если нужен, с чего начать.

Personal Brand - достаточно популярный термин в корпоративном мире. Его можно делать, а можно не делать. Каждый решает для себя. Личный бренд нельзя создать за месяц, и возможно и года будет мало. Это ваша репутация в индустрии, это ваше имя, которое ассоциируются с чем-то, как правило с вашими заслугами в том, чем вы занимаетесь и в том, что вы любите. Ведь вы должны любить то, что делаете!=)

Я постарался ответить себе на вопросы:
1) что такое личный бренд в моем понимании
2) хорошой бренд = суперстар?
3) помогает ли бренд получить работу?
4) как создать свой бренд?
5) какие преимущества у бренда
6) какие недостатки у личного бренда
7) бренд для РФ или запада?
8) токсичная среда у нас и позитивная за границей. (Хабр, реакция на ошибки)
9) нужно ли вам создавать личный бренд?

Time Codes:

- 0:15 Что такое личный бренд

- 1:36 Создание личного бренда

- 8:40 Создали бренд - что дальше

- 10:50 Создание бренда на Западе и в России

- 13:29 Заключение


Поддержка по звуку: Мак (PhD, NLP Eng.; подкаст Data Coffee)
Anchor
Личный бренд - нужен или не нужен? А если нужен, с чего начать. by Инжиниринг Данных и Ко
Personal Brand - достаточное полярный термин в корпоративном мире. Его можно делать, а можно не делать. Каждый решает для себя. Личный бренд нельзя создать за месяц, и возможно и года будет мало. Это ваша репутация в индустрии, это ваше имя, которое ассоциируются с чем-то, как правило с вашими заслугами в том, чем вы занимеетсь и в том, что вы любите. Ведь вы должны любить то, что делаете!=)

Я постарался ответить себе на вопросы:
1) что такое личный бренд в моем понимании
2) хорошой бренд = суперстар?
3) помогает ли бренд получить работу?
4) как создать свой бренд?
5) какие преимущества у бренда
6) какие недостатки у личного бренда
7) бренд для РФ или запада?
8) токсичная среда у нас и позитивная за границей. (Хабр, ошибки)
9) нужно ли вам создавать личный бренд?
Time Codes:
- 0:15 Что такое личный бренд

- 1:36 Создание личного бренда

- 8:40 Создали бренд - что дальше

- 10:50 Создание бренда на Западе и в России

- 13:29 Заключение
Поддержка по звуку: Мак (PhD, NLP Eng.; подкаст Data Coffee)
Возраст 18+.
источник
Инжиниринг Данных
Вот пример начала создания бренда:
1) в 2013 я сделал абы какой блог, не имея опыта я туда кое как чего то писал. Практиковал английский и мне это давало личной уверенности для собеседований. http://techbusinessintelligence.blogspot.com
2) позже стал выкладывать презенташки https://www.slideshare.net/dimoobraznii
и все какие были переводил на английский, уверенности стало в 2 раза больше🤣

Поэтому делайте что хотите и как хотите, это все пойдет на пользу в long term.
источник
2022 February 10
Инжиниринг Данных
Мне пришла идея про data learn на английском, чтобы было не скучно. Я веду еще один канал про Xbox новости и игры, и последний пост у меня был про Unreal Engine и MetaHuman. И я понял, что было бы круто сделать datalearn в metaverse.

Ну начать сначала просто с meta персонажа, который будет копировать мою мимику и просто грузить результат на youtube. У меня всеравно стоит без дела самый навороченный PC для Game Dev и мы работаем на Unreal Engine 5 в области добавление ML и автоматизации элементов game dev. Но это скучно, а вот сделать по фану курс в таком формате будет огонь, но придется вложиться в оборудование. Может кому интересен такой концепт запилить DataLearn для всего мира в формате сериала Netflix (Любовь. Смерть. Роботы).

Я обязательно поковыряюсь в этом и спрошу коллег, чтобы прислать привет и метавселенной))
источник
Инжиниринг Данных
В пандемию выручка «Ешь деревенское» кратно выросла, и бизнес хочет сохранить темпы роста в новом году. Чтобы прогнозировать выручку и эффективнее работать с клиентами, решили перейти от RFM-сегментации к сегментации на основе моделей машинного обучения.

Приглашаем на вебинар retention head «Ешь деревенское» Марины Писаренко и руководителя отдела аналитики Coffee Analytics Анны Виноградовой. Они расскажут:
— В чём особенность сегментации клиентов «Ешь деревенское» и почему RFM-сегменты ему не подходят;
— Чем ML-сегментация отличается от RFM, какие признаки клиента она учитывает и какие инсайты приносит;
— Как от сегмента зависит LTV клиента и что с этим делать маркетологу. 
 
Марина и Анна покажут примеры отчета со структурой базы на основе ML-сегментации и помогут в них разобраться.

Вебинар пройдет 16 февраля, в среду, в 18:00.

Регистрация открыта

#реклама
источник
Инжиниринг Данных
https://youtu.be/G5B61Swflf4
мы начинаем
YouTube
ЗНАКОМСТВО С ALTERYX НА ПРАКТИКЕ И ЗАЧЕМ ОН НУЖЕН / ГЕОРГИЙ ВИНОГРАДОВ
Чем будем заниматься:
Познакомимся с Alteryx и постараемся понять зачем он вообще нужен за такие-то деньги ($5к Individual User/Year).
За пару минут спарсим ~15 Гб данных и поразмышляем о вине и мифах он нем.  
А именно, на основе собранных данных ответим на вопросы:
- Правда ли, что французское вино всегда лучше чилийского
- Действительно ли белое больше подходит к рыбе, а красное к мясу
- Определим всегда ли старое вино лучше молодого
- И есть ли корреляция между ценой на вино и его качеством

Спикер - Георгий Виноградов,
Head of Data Management at Novartis

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥 Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
🔥 Телеграм канал DataLearn:
https://t.me/datalearnru
источник
Инжиниринг Данных
источник
2022 February 11
Инжиниринг Данных
Я смог пройти вот этот курс - Managing Python Packages and Virtual Environments и задокументировал его.
источник
Инжиниринг Данных
Попался документ "WHAT DOES A DATA ENGINEER DO AT AMAZON" и чего ждать на интервью.
источник
Инжиниринг Данных
Какие темы обсудить в подкасте?
У меня есть пару идей:
1) про выгорание, что это такое и как справляться
2) про MBA и аспирантуру и пользу в карьере
3) как первую написать книгу

Напишите что ещё интересно. Подкасты это быстро и удобно! Пока в пробке стоишь, записал🤗 правда у нас нет пробок!🤣
источник
Инжиниринг Данных
Очень интересно ваше мнение это вообще нормально - Трем подросткам из Канска вынесли приговор по статье о терроризме. Один из обвиняемых — 16-летний Никита Уваров — получил пять лет колонии

Это наверно уже не про аналитику и гейминг, а про политику. Меня конечно эта история очень задела, чтобы они там не делали, я сам себя знаю в 16 лет, ты не думаешь о последствиях, просто делаешь глупости, чисто поржать. Я написал руководству xbox gaming и приложил ссылку на английскую статью. Возможно они не знают, что происходит с их игрой, а возможно знают, но бессильны.
источник
2022 February 12
Инжиниринг Данных
Мы знаем, что есть ETL, а еще есть ELT. Когда я спрашиваю на собседованиях, в чем разница между ETL и ELT, а так же MPP и SMP (второе редко кто отвечает, даже если работали с MPP), мои руководители, спрашивают меня, зачем я это спрашиваю. Мне это важно, потому что показывает кругозор кандидата, это не вопрос про "почему люк круглый" или "сколько беременных женщин проезжает за день в московском метро".

На самом дела я хотел написать про Meta ETL. И это очень хороший подход, который позволяет избежать Copy-Paste ваших pipelines, jobs, transformations and so on.

Как раз такой мы и используем на Azure Data Factory. Весь ETL создан в Visual Studio на C#, за это можно поставить памятник моему коллеге, все это дело подвязано на Azure DevOps, и происходит Deploy на Dev/Prod. Это чистой воды Software Engineering проект, который делает ETL. Ничего сложней я не видел. Я уже профессионально овладел навыком Copy/Paste кусочков C# для создания нового pipeline. Я прям горд за себя!😊

Допустим, я сделал новы Databricks Notebook, который:
1. Берет файлы (spark.read) и создает data frame
2. Дальше я могу менять data frame используя Pyspark сколько душе угодно
3. Записываю финальный data frame в таблицу (spark.write). Обычно добавляю партицию (заменяю). Но с Delta Lake можно позволить себе MERGE операцию.

Для каждой таблицы у меня отдельный notebook. Операция 1 и 3 унифицированы (обычная функция Python, которая на вход берет ряд параметром **read_parameters или **write_parameters в dictionary), а 2 это уникальный элемент для каждой таблицы.

Теперь, чтобы поставить это дело на расписание, я беру Azure Data Factory (вместо Databricks Jobs, Live Delta Tables) и создаю новый Pipeline (Copy Paste C# кусок и изменяю его). И все готово.

А если у меня 100 таблиц? Это значит без C# надо укликаться в ADF UI, чтобы все создать. С C# легче, просто копируем себе, а потом выстраиваем в одну большую очередь (назовем это Hand Made DAG). И запускаем.

Это все было не Meta ETL. А теперь подход Meta. Я создаю 1 pipeline в котором есть несколько циклов (Stages). Потом беру, например Azure SQL бд, в ней создаю таблицу - ETL_CONFIG и набор колонок. 1 строчка = 1 таблица (job, notebook). Идея в том, что мой единственный Pipeline будет запускать цикл (или несколько циклов) и на вход брать название таблицы.

То есть, я могу сделать один ETL job (даже в томже Airflow), который будет выполнять мои Databricks Notebooks по очереди с соблюдение зависимостей и приоритетов.

Нужно добавить новую таблицу? Легко, делаю новый notebook в Databricks и добавляю новую строчку в Azure SQL и все. Visual Studio даже открывать не надо (эх забуду свои навыки в C#🤔).

И тут я уже ограничен только фантазией, я могу так же сделать всего 1 Notebook вместо 100 (сейчас 1 таблица = 1 notebook), и так же передавать параметры и гонять его покругу.

Вот кстати статья про это.

Я бы хотел сделать такой проектик в модуле 7, но нужны руки:)
источник
Инжиниринг Данных
Давно слежу за дяденькой, он вроде как ветеран в Microsoft и создавал Synapse, а тут свалил в Snowflake. То есть это как понимать, Synapse фигня и нет смысла его использовать или менеджмент в Synapse плохой, что тоже влияет на качество продукта.

Вообще я еще не знаю ни одну компанию кто использует Synapse.

Недавно смотрел внутренний вебинар про Synapse ML - взяли за основу SparkML и накруртили там всего, чего можно. Но где реальные клиенты передовых аналитических инструментов, или они не передовые? Или это dogfood.

Любой человек в Microsoft знает, что это значит (обычно боль и мучение, для людей, которые используют продукт). Народ из Microsoft, попадалась вам “собачья еда”?
источник
2022 February 13
Инжиниринг Данных
Интересный курс.

This course gives you easy access to the invaluable learning techniques used by experts in art, music, literature, math, science, sports, and many other disciplines. We’ll learn about how the brain uses two very different learning modes and how it encapsulates (“chunks”) information. We’ll also cover illusions of learning, memory techniques, dealing with procrastination, and best practices shown by research to be most effective in helping you master tough subjects.  

https://www.coursera.org/learn/learning-how-to-learn

Проходили такой?
источник
2022 February 14
Инжиниринг Данных
Привет. У нас завтра третий день рождения у чата. Как насчёт ссылочки? :)

Что-то такое:

Всем привет! 14 февраля - не только День святого Валентина, но и очередной день рождения группы Power BI Group RU, самого большого русскоязычного сообщества влюбленных в Power BI в Telegram. Здесь всегда будут новости, полезные ссылки, жаркие дискуссии, но, главное, активная помощь друг другу. Присоединяйтесь!

https://t.me/PBI_Rus
источник
Инжиниринг Данных
The Devil is in the Dirty Laundry – Life Lessons from
Prime Machine Learning Experiments and Launches.


Abstract:


Machine Learning (ML) has attracted a lot of attention from leading high-tech companies and played an important role in Amazon in recent years.

Tremendous effort has been devoted to studying and utilizing the latest ML techniques as well as developing tools to support the fast development and implementation of them.

However, there is little shared on best practices and issues encountered from practical applications in the wild.

In this paper, we share our experiences and 14 lessons learned from a variety of experiments and product launches in order to raise awareness of common pitfalls and improve the success of other ML applications across Amazon.
источник
Инжиниринг Данных
Маркетинговая аналитика и модели атрибуции все еще очень популярны и востребованы.

fun attribution exercise: a company sent me an email reminding me about what they do, i read it, clicked a link, watched the video, slept on it, remembered the next day, told a coworker about it on slack, he will google it and find them and sign up. good luck attributing that.

В статье The Case for Marketing Attribution автор рассматривает классические подходы и потом переходит к Hidden Markov Model.

Я тоже пытался использовать HMM еще в 2014 году, создал Redshift, загузил все данные из разных каналов (кстати использовал Pentaho DI), потом понял, что как-то сложновато для меня одного, построил Sankey диаграмму и сравнил First Click и Last Click модели, на этом все закончилось🤗
источник
2022 February 15
Инжиниринг Данных
Видео про чувака из самого знаменитого мема https://youtu.be/PUKwXKzRsXY
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Microsoft и другие tech компании готовятся возвращать людей на работу. Паника заканчивается и можно загнать людей обратно, где есть бесплатный кофе и напитики (совсем не healthy), тренажерка и конференц залы, в которых уже не поигаешь в Xbox во время встречи🤫

Я вот, например, не собираюсь обратно в офис, покрайней мере в офис, в котором платят Канадскую зарплату🇨🇦

Мне всегда офис нравился, я даже во время пандемии почти год в офисе провел, пока ковид паспорта не ввели. А теперь уже не до офиса стало😄

А вы как уже в офисе? Где вам лучше работается?
источник
2022 February 16
Инжиниринг Данных
Товарищ рассказал про 5 дата трендов в 2022, давайте на них посмотрим.

1. The rise of the Analytics Engineer - ну то есть разработчика dbt. Как-то за пределами dbt community это слово не прижилось.

2. The data warehouse vs data lakehouse war intensifies (and lines get increasingly blurred) - это факт, спасибо open source contributions в развитие delta lake, iceberg, hudi.

3. Real-time streaming pipelines and operational analytics will continue to push through - уже с 2000х стриминг деалет пуш фру. Но реально, если нет бизнес необходимости критической, зачем козе боян? Вот и я так же думаю про streaming в моей day to day data engineering job.

4. The rise of Cloud Marketplaces for Modern Data Stack adoption - это интересно. Marketplace решают. У Tableau есть такой, у Power BI есть такой. Вот про data engineering пока не знаю, есть у Snowflake Partner Connect и Data marketplace, еще видел у Azure Data Factory и Synapse, ну такое...

5. Harmonization and consistency of terminology around the Modern -  Data Stack and data quality - это старо как мир, но до сих пор не решено до конца. Я имею ввиду, Tableau решил проблему дашбордов, self-service и визуализации, а вот такого же прорывного решения в области quality & governance я пока не наблюдаю, все хотят к себе такое внедрить, но единого мнения как лучше нет.

Я бы еще добавил 6 - Data Observability.
источник