Size: a a a

Инжиниринг Данных

2021 December 29
Инжиниринг Данных
Кто дослушал вебинар до конца, тот услышал в самом конце про еще один реальный кейс использования dbt.

Ришату большое спасибо за выступление, а Роману за организацию!

Я добавил ссылки на вебинары про dbt и Airflow к модулю 4 про ETL.
источник
2021 December 31
Инжиниринг Данных
Guide to Data Warehousing -  пример статьи, которая вводит всех в заблуждение. И таких большинство.  Захочет простой человек узнать про хранилища данных и методики моделирования и попадет на такую статью. А в ней:

Methodologies covered
- Kimball methodology
- Inmon methodology
- Data Vault
- Data Lake
- Lakehouse

Кто понимает, сразу заметит что-то неладное в списке. Вот пройдете на data learn и будете тоже в этом видеть разницу🤗
источник
Инжиниринг Данных
Amazon Redshift - популярное хранилище данных от AWS. Я нашел интересный сайт Amazon Redshift Research Project

This not your typical site, with advice like "pick a good distribution key". This is low-level, detailed, comprehensive research. If you do any kind of serious work with Redshift, the content here will blow you away.

The core content are the white papers. Everything else is basically ways to discuss them.

Вот пример из свежей статьи - Multi-Version Concurrency Control and Serialization Isolation Failure. Вот оно, где "собака зарыта". (Так вообще говорят?)
источник
Инжиниринг Данных
Итоги года🤪

До конца года осталось совсем немного и можно подвести итоги уходящего года.

В целом, из-за отсутствия путешествий все как-то грустновато, не хватает ощущений радости исследования новых мест и стран или посещения родных мест, например ГУМа или Макдональдса на Пушкинской=). Вот так вот, человек с канадским паспортом скучает по родным местам. Еще бы я добавил европейские страны - Франция и Италия. Да что уж там говорить, столько прекрасных мест, новых и старых, а нам вот надо еще «немножко» подождать.
В Канаде вообще забавно, после 20 месяцев пандемии с рейтингом вакцинации в 90 процентов, где вам укол поставят в drive through (это такой метод покупки фастфуда, чтобы из машины не выходить) снова идут разговоры про закрытие школ и других методов, которые очевидно не работают.  

Но наше дело маленькое – работать работу и получать копеечку. Больше работаешь - больше копеечка, иногда приходилось работать с 7 утра до 9 вечера и практически без выходных. Еще в Амазоне у меня появился вопрос – «Зачем?». После 10 лет работы в одной области, кажется, что одновременно все знаешь и не знаешь ничего. Чем больше изучаешь нового, тем больше появляется новых методов и инструментов.  

Для меня, конечно, главный вопрос, а что дальше? Если раньше было все просто и понятно – хочу переехать, купить дом, получить гражданство и работать в FAAN(M)G, то теперь я осознал, что у меня больше нет других планов и я не придумал что делать. Пока еще не придумал. Если я буду просить что-то Деда Мороза на новый год, то я бы попросил новую и ясную цель, чтобы все стало просто и понятно как раньше.

Поэтому могу смело пожелать всем, кто только в начале пути, главное четко определиться с целью. Самый простой пример, вы хотите работать в дата и хорошо зарабатывать или переехать за границу? Ну тогда у вас все для этого есть, datalearn уроки + сообщество, и вы сами не заметите как все получите. Я еще не знаю ни одного человека, кто не достиг результатов. Ведь как говорят, если нет цели, то и попадать некуда.

Мне кажется, у меня самые пессимистичные итоги года:/
Но на самом деле все не так плохо, а даже хорошо. Конечно грустно, что пока еще с целеполаганием у меня пробел, но я надеюсь, что вот как только схожу в Макдональдс на Пушкинской, и проведу качественно время в Москве и Европе, то сразу полегчает!)
2021 год мне запомнился переездом с острова Ванкувер (Виктория) в Ванкувер. Мы прожили 5 лет на острове и это замечательное место. Оно было таким, пока за счет Амазона мы гоняли в Бостон и Сиэтл каждый месяц, и проводили время за счет компании. Именно поэтому при увольнении из Амазона у меня осталось 1,5 месяца отпуска. При переезде в Ванкувер нам выдали на 2 месяца квартиру на 27 этаже в центре и потом мы въехали в новый таунхоум, а старый дом сдали в аренду. Разница жизни в доме/таунхоме достаточно большая, но это уже отдельная статья. С марта по октябрь я ходил в офис, в нем я был практически один, пока «не прикрыли лавочку». Летом мы много времени проводили на пляжах Ванкувера, катались на велосипедах, я плавал на своем новом падл борде, который сделан специально для океана. Если по приезду в Канаду я подсел на кофе, то по приезду в Ванкувер я подсел на сидр, который варится small batch на острове Ванкувер. Вот с этим сидором и встречали закаты.

На острове, от нечего делать, я часто ловил рыбу и крабов в океане, а тут почему-то перестал. Может в 2022 году я смогу снова поймать большую рыбу!)

В технологическом плане я неплохо поднабрался опыта в Databricks, Microsoft Data Stack, Azure, DevOps и все что около него. Достаточно много узнал про игровую индустрию и как делается аналитика для AAA игр и теперь и сам могу строить такое решение. Кроме Microsoft стека появилась возможность попрактиковаться на AWS с использование dbt, looker и других хипстерских инструментов.
В планах, конечно, это получение навыков на пересечении Data Engineering и DevOps и планирую использовать DataDog, Terraform, дальше ковырять Python и делать data pipelines на dbt + airflow, чтобы быть в тренде, так сказать.
источник
Инжиниринг Данных
Если посмотреть на провал года, то это будет soft skills. Я слишком много времени уделяю техническим вещам и говорю коллегам как есть, часто не «политкорректно». Одно радует, что пока не сталкивался с проблемами diversity&inclusion. Например, в моем годовом performance review написано, что у меня нет “Grow Mindset”, и что я должен быть открыт ко всему новому и учиться с удовольствием. Звучит перебор для меня, так как я только и делаю что ежедневно учусь. Вопрос в том, что я учу и для кого. Все что я учу, я учу для себя и на перспективу. Я просто сказал менеджеру, что учить C# (жена подумала это это слово СУКА с но цензурно скрыто😭, хотя близко по смыслу) я не хочу и не буду, так как есть более перспективные вещи для моей карьеры дата инженера. Может оно и так, но нельзя так отвечать менеджеру. И таких примеров у меня много, и каждый пример — это как «палка в колесо» развития карьеры внутри компании. Возможно, стоит сменить фокус на софт с технических навыков.

Из других достижений я наконец нашел способ увеличить доход, но все это больше, как временная мера. Чтобы зарабатывать в 2 раза больше, нужно работать в 1,5 раза больше. На короткой перспективе можно заработать, но это так себе решение задачи в долгой перспективе.

Вообще уровень зарплат в Канаде печальный. Если средняя зарплата специалиста не из ИТ равна 60т CAD в год до налогов, то в ИТ это 120т CAD. А старший дата инженер может получать 150т CAD + Stock + Bonus (условно не больше 180т CAD). Доктор будет получать уже 400т+ CAD в год. И налоги здесь прогрессивные. В целом в нашей отрасли дела хорошо идут. Но давайте посмотрим 200км южней от Ванкувера, на родину Старбакс и Амазон, там инженер данных будет получать уже в среднем в год 250т-300т US$ и налог будет 30% вместо 40%. А при хорошем раскладе будет все 450т US$ в год. В целом такое распределение вознаграждений в одной и той же компании мне кажется не честным, но что есть, то есть.

Поэтому часто у меня возникает вопрос, почему я еще не там? И у меня нет ответа. Потому что я не знаю, что лучше. Получать больше в Штатах или получать меньше в Канаде, а может быть получать достаточно в Европе? Или работать удаленно в Мексике? Вот примерно такие вопросы я себе задаю, и надеюсь в 2022 году я смогу найти на них ответы. Того и вам желаю! Пусть у каждого будет цель, а лучше измеряемый OKR😉 и тогда будет вам счастье!
источник
Инжиниринг Данных
По тексту может показаться грустноватый год, но если верить инстаграмму жены - год улет! Она сделала очень классный reels про 12 месяцев 2021 года
источник
2022 January 03
Инжиниринг Данных
источник
2022 January 04
Инжиниринг Данных
Большая обзорная статья про рынок баз данных в 2021 году. Там и postgres, и clickhouse, и противостояние Snowflake vs Databricks.
источник
Инжиниринг Данных
dbt tool первыми показали миру как можно создать успешный продукт, продвигая, его в дата сообществах.

Изначально сам продукт использовался для задач консалтинг компании Fishtown Analytics, которая делала BI для стартапов.

Благодаря облачным вычислениям, любая компанию после 2012 года (год запуска Amazon Redshift) могла легко и дёшево создать инфраструктуру аналитики и потом прикрутить простенький BI инструмент, да или вовсе обходиться SQL и Python.

Позже (а может и сразу) ребята из рыбного города сделали продукт открытым ПО и потихоньку набирали популярность, изначально просто ради привлечения клиентов стартапов.

Время шло, сообщество росло и крепчало, вносило изменения в продукт и можно было легко понять, куда нужно развиваться, какие фичи добавлять.

А потом, все венчурные фонды прочюхали рынок даты, и стали туда вливать много много денег.

Жалко Kettle/Pentaho DI не дождался своего часа, а то бы и в них влили сотню млн долларов на развитие, но их прохерили хитачи, которые их купили. Вообще странная компания Hitachi, даже есть представительство консалтинга в Ванкувере, наверно у них там дата камикадзе работают😬

Так вот, стали появляться коммерческие версии опенсорсных продуктов для данных, для ETL, для BI. Да и не только открытое ПО взлетело. Коммерческие продукты для аналитики всех цветов и мастей тоже получили бабло, а кого-то даже купили за млрды!🔥

Так вот, дошла очередь до dbt, им дали денюшку на коммерческий продукт - dbt cloud. Вроде он хороший, но можно и без него обойтись. Ценность пока для меня не ясна, но попытка хорошая.

В целом dbt всем показал, как можно сделать open source решение, быстро нагнать народ в сообщество и потом этому же сообществу продать свой продукт. Отличный пример это Airbite. Его фаундеры про это не стеснялись, так и говорили. Думаю Great Expectations там же рядом. И ещё много желающих. Можно и другую стратегию выбрать, например Partner Connect от Snowflake. Продать душу йети, так сказать.

Я точно уверен, что развивать продукт через сообщество это круто, но мне кажется нереально пройти путь dbt 8-10 лет за 1-2 года другим компаниям, даже с хорошим инвестированием. Народ быстро поймет, что к чему.

PS вообще я хотел скинуть статью про обзор 3х дней конференции coalesce от dbt, которую написал какой-то workflow manager продукт. (опять же для привлечения клиентов) Но потом меня накрыл поток мыслей 🤪
источник
Инжиниринг Данных
Главный инженер Сбера написал статью для Сбера хабр про миграцию с Терадаты на Greenplum. По мне, автор вообще не раскрыл тему вопроса. Обо всем и не о чем-то😔. Про объем данных нет информации, про ETL инструменты тоже, про цену решения - нету. А так да, гринплан может заменить дорогую терадату😋

А сколько в Сбере платят-то?))🤑
источник
2022 January 05
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Martin M. Broadwell defines four stages of competence in Teaching for Learning:
- unconscious incompetence (you are unable to perform a task correctly and are unaware of the gap)
- conscious incompetence (you are unable to perform a task correctly but are aware of the gap)
- conscious competence (you are capable of performing a task with effort)
- unconscious competence (you are capable of performing a task effortlessly)

Таким образом можно сказать, что

Джуниор - conscious incompetence
Мидл - conscious competence
Сеньер - unconscious competence

Конечно, но же с пересечением. Но достаточно понятная формулировка.

Если посмотреть на datalearn подход, то мы гарантируем всем conscious incompetence с возможностью получения conscious competence в нескольких базовых навыках, которые будут достаточны, чтобы найти первую работу.
источник
Инжиниринг Данных
As Ron Jeffries says, “Code never lies. Comments sometimes do”
источник
Инжиниринг Данных
Итоги 2021 года:
Данные взяты не за все время, а только за 2021 год
Общая статистика:
SQL - Анатолий Балакирев:
• 37 видео
• Всего просмотров:  26479
• Часов просмотра: 2699

Вебинары - ведущий Роман Пономарев:
• 28 видео
• Всего просмотров:  38697
• Часов просмотра: 7016

Курс DE 101 - Дмитрий Аношин:
• 23 видео
• Всего просмотров:  19535
• Часов просмотра: 2161

Курс Getting started with Machine Learning and Data Science - Анастасия Риццо:
• 10 видео
• Всего просмотров:  9722
• Часов просмотра: 827

Анастасия Дробышева:
• 6 видео
• Всего просмотров:  3108
• Часов просмотра: 164

women in data community - Яна Конн, Яна Одинцова:
• 5 видео
• Всего просмотров:  1831
• Часов просмотра: 145

Pentaho - Павел Новичков:
• 2 видео
• Всего просмотров:  3569
• Часов просмотра: 420

Гости-спикеры наших вебинаров 2021 года
(список писал с последовательности выступлений сначала года):
• Владимир Лагутинский
• Денис Волк
• Аноним
• Павел Новичков
• Николай Голов
• Артемий Козырь
• Misha Britan
• Александр Гончар
• Алена дробышевская
• Дмитрий Павлов
• Павел Дубин
• Ксения Певзнер
• Штанова Евгения
• Viktor Kessler
• Владимир Калмыков
• Андрей Менде
• Иван Трусов
• Евгения Ребрикова
• Роман Зыков
• Денис Соловьев
• Виктория Олейник
• Олег Агапов
• Роман Васильев
• Эмиль Богомолов
• Дмитрий Браженко
• Анна Абрамова
• Gor Hayrapetyan
• Дмитрий Павлов
• Ришат Мингазов

❤️ Мы выражаем благодарность каждому спикеру, кто внес свой вклад в образовательное сообщество DataLearn.
Хотел написать, что очень рад, что к нам пришли много спикеров из очень крупных в том числе международных компаний, но потом вспомнил, что в 2020 году было также, и планка на максимуме задана с самого старта :)
Также напоминаю, что если у вас есть, чем поделиться с миром, то пишите и будем ждать вас на вебинаре.❤️

Еще немного достижений:
🔱 Запустили женское сообщество: women-in-data-community
🔱 Запустили очень крутой курс по sql для начинающих
🔱 Запустили очень крутой курс по Machine Learning and Data Science
🔱 Также на данный момент у нас в слаке 4823 человека (за год выросли примерно в 2 раза).  Слак разбит на множество тематических каналов, так что общайтесь, помогайте и делитесь знаниями.
Чтобы попасть в слак нужно зарегаться на курс на сайте datalearn.ru. Курс полностью бесплатный.
🔱 Также есть чат по инжинирингу данных в тг, там уже 500+.

Идея DataLearn изначально была как образовательное сообщество и для нас огромной мотивацией служит несколько вещей:
• Когда новички приходят, учатся и устраиваются на работу в течение нескольких месяцев, а таких случаев уже больше десятка.
• Когда своими знаниями хотят поделится опытные специалисты
• Когда люди помогают друг другу в обучении
• Когда новые ученики осознают, что у нас не просто курс, а комьюнити и после того как получили знания остаются на связи и проявляют активность
Что мы терпеть не может так это то что у нас бывают грамматические ошибки, иногда плохой звук и люди уже начинают кидать претензии. что картинка не кинематографическая)))) Мы об этом все знаем не переживайте, но делаем все настолько насколько хватает сил и средств и свободного времени))

Хотелось бы еще рассказать о планах на 2022 год, но о них мы поговорим в другом посте :)

Всех обнимаем, с Наступившим Новым Годом и больших успехов в новом году :)🥳🥳🥳🥳
источник
2022 January 06
Инжиниринг Данных
Моя самая любимая книга для изучения английского языка, чтобы уж точно за своего сойти))
источник
Инжиниринг Данных
Мне нравится использовать новые технологии и подходы, так интересней и всегда есть аспект изучения новых вещей и решение новых проблем.

Сегодня увидел интересную мысль про преимущества использования старых проверенных технологий:

The problem with new technology is that it’s less mature. In his presentation “Choose Boring Technology,” Dan McKinley points out, “Failure modes of boring technology are well understood” (http://boringtechnology.club/). All technology is going to break, but old stuff breaks in predictable ways. New things break in surprising ways. Lack of maturity means smaller communities, less stability, less documentation, and less compatibility. New technologies have fewer Stack Overflow answers.http://boringtechnology.club/). All technology is going to break, but old stuff breaks in predictable ways. New things break in surprising ways. Lack of maturity means smaller communities, less stability, less documentation, and less compatibility. New technologies have fewer Stack Overflow answers.
источник
Инжиниринг Данных
А другая интересная мысль про замещения старого - новым.

In book The Hard Thing About Hard Things (Harper Business, 2014), Ben Horowitz says:

The primary thing that any technology startup must do is build a product that’s at least ten times better at doing something than the current prevailing way of doing that thing. Two or three times better will not be good enough to get people to switch to the new thing fast enough or in large enough volume to matter.


То есть условно, если новое хранилище данных не будет в 10 раз эффективней старого (по разным параметрам), то может быть еще рано его заменять? Таким образом можно выбирать приоритеты.
источник
Инжиниринг Данных
Ребята под предыдущим постом, где были итоги года вы накидали хороших комментов, спасибо вам большое :)
Но сейчас не об этом...
Я подробней посмотрел на статистику вебинаров и увидел, что у Димы 5-й модуль про облачные вычисления не залетел, 4-й и 6-й его опередили. Может в русскоязычном сегменте еще не готовы к облаку, но радует, то что когда момент настанет у нас у одних из первых уже есть мега крутой материал. Кстати кто не знает, но по 5-му модулю даже есть лабораторные работы в облаке.

Это я все к чему:
Напишите пожалуйста в комментариях, сколько модулей прошли или может быть вы смотрите вебинары, то тоже напишите, что смотрите только вебинары, также если вы дошли до какого-то модуля, но затем прервались, напишите тоже пожалуйста, если вы на канале не давно и не в курсе о чем речь, пишите что без понятия о чем курс и о чем речь.

А ну и самое для нас интересное: если вы состоите в слаке datalearn напишите пожалуйста и как часто вы туда заходите? :)
источник
2022 January 07
Инжиниринг Данных
Есть специальный сайт, на котором можно посмотреть рейтинг движков баз данных и узнать по каким критериям строится рейтинг. Я вот выбрал несколько. Самый быстрый рост среди аналитичиских БД у Clickhouse (самая нижняя зеленая линия) и Snowflake (голубая линия снизу). https://db-engines.com/en/ranking

Databricks, , Firebolt в списке нет.
источник