Size: a a a

Инжиниринг Данных

2022 January 27
Инжиниринг Данных
Для всех новичков в datalearn записал короткий но важный ролик:

Практически каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.

Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать репозитория для своих файлов
- Как можно упростить задачу и использовать GitHub Desktop
- Узнаете как вы можете использовать Git в командной строке (по желанию)
- Узнаете как используют git в реальных условия, на пример создания собстевнного branch, модификации файлов и push их обратно в репозиторий в Visual Code (IDE)
- Узнаете как создавать файлы в Markdown
- Покажу вам отличный пример оформления домашнего задания

Таким образом сохраняя свое домашнее задание в git вы можете получать востребованные навыки без лишних усилий и самое главное использовать свой гит как дополнение к резюме.


https://youtu.be/USDNzpTMNSs
YouTube
DATALEARN | DE - 101 | ВВЕДЕНИЕ ЧАСТЬ 3 | ОФОРМЛЕНИЕ ДОМАШНЕГО ЗАДАНИЯ - GIT, MARKDOWM, CLI
Практический каждый урок каждого модуля имеет домшнее задание или лабораторную работу. Я всегда прошу сохранять результат работы в Git, но никогда не показывал как это делать. Теперь вот показал.

Из видео вы узнаете:
- Как зарегистрироваться в Git
- Создать репозитория для своих файлов
- Как можно упростить задачу и использовать GitHub Desktop
- Узнаете как вы можете использовать Git в командной строке (по желанию)
- Узнаете как используют git в реальных условия, на пример создания собстевнного branch, модификации файлов и push их обратно в репозиторий в Visual Code
- Узнаете как создавать файлы в Markdown
- Покажу вам отличный пример оформления домашнего задания

Таким образом сохраняю свое домашнее задание в git вы можете получать востребованные навыки без лишних усилий и самое главное использовать свой гит как дополнение к резюме.

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥Самые актуальные новости про аналитику в Telegram канале:  https://t.me/rockyourdata
источник
Инжиниринг Данных
Интересно следить за гигантами аналитического мира - Databricks vs Snowflake. Даже The Information написало статью их дружбы в молодые годы и текущего противостояния:

“Things moved pretty quickly from ‘We can work together with Snowflake’ to ‘We need to rip and replace Snowflake,” said the former Databricks employee.

Несмотря на их противостояни, они отлично драйвят analytics adoption в компаниях, из армия sales объясняют на пальцах ценность аналитики и помогает индустрии развиваться. Теперь вот все хотят дата инженера, чтобы внедрять Databricks или Snowflake=)

В любом случае, все у них будет хорошо. Рынок большей, всем хватит!:

“I think Snowflake will be very successful, and I think Databricks will be very successful,” he said. “You will also see other ones pop up in the top, I’m sure, over the next three to four years. It’s just such a big market and it makes sense that lots of people would focus on going after it.”

PS Вот и firebolt получил раунд С инвестиций и тоже стали единорогом. Очень смешное видео сделали - We have an announcement 🦄
источник
Инжиниринг Данных
Переслано от Nikolay Golov
Привет еще раз :) ... Вышла новая моя статья про моделирование данных, как продолжение тех двух видео про Data Vault и Anchor Modeling, там в статье есть ссылки на них. Думаю, людям в канале было бы интересно :) https://habr.com/ru/company/manychat/blog/647675/
источник
2022 January 28
Инжиниринг Данных
Всем привет!
У нас на подходе вебинарчик:3 февраля в 19:00 по мск
Тема: Для кого ML роли и какие вообще подроли
Спикер: Валерий Бабушкин
Валерий расскажет о том, кто же есть в профессии и почему вы никогда не найдете Data Scientist
Ссылка на вебинар:
https://youtu.be/4voLlzLT3uM

Если что, то да, это тот самый Валерий Бабушкин :)
Контакты спикера:
https://t.me/cryptovalerii
источник
2022 January 29
Инжиниринг Данных
Не знаете, чтобы такого сделать, чтобы потренироваться с data pipelines? Вот отличный кейс - Automating Nike Run Club Data Analysis with Python, Airflow and Google Data Studio
источник
Инжиниринг Данных
Python for Everybody
Exploring Data Using Python 3 (PDF)
источник
Инжиниринг Данных
Пока большинство изучает SQL и Python для задач инжиниринга данных, а индустрия упрощает решения (например lake house), некоторые размышляют о следующем популярном языке для задач дата инжиниринга (интеграция и трансформация данных) -

Let's break down these past years and understand data engineers' current programming language ecosystem and the ideal candidate for 2022. Could Scala, Golang, or Rust be our next favourites? Let's find out.

А вы что думаете? Надеюсь все останется как есть и не надо учить новые framework😳😂
источник
Инжиниринг Данных
Стань разработчиком DWH Яндекс.Облака!

Мы проектируем и разрабатываем географически распределенные DWH, ETL-процессы, создаем инфраструктуру для контроля качества и стабильности данных, помогаем выстраивать смежные процессы которые влияют на качество данных, необходимых для принятия важнейших бизнес решений

Greenplum, Clickhouse, YT (in-house BigData Hadoop + Hive + HBase), Python. Используем как яндексовые разработки, так и популярный в индустрии стек

Сильная команда, международный проект, возможность лично влиять на вектор развития инфраструктуры

Москва, Прага, Санкт-Петербург, Екатеринбург, Казань или удаленка
250 000 - 500 000 р. (для РФ)

tg: @alexanderyugov (руководитель направления), @annashutrova (рекрутер)

https://clck.ru/apoyw

#вакансия #яндекс #remote

PS пост поддержал приют для собак.
источник
Инжиниринг Данных
Небольшой доклад на русском про использование Airflow, Google Cloud, Big Query и Power BI.  Видео имеет всего 4 лайка, давайте поддержим спикера.
источник
Инжиниринг Данных
Всем привет, недавно Николай из канала Left Join обратился к нам с вопросами про data learn:

1. Как вам пришла идея создания бесплатных курсов? В чем ваша мотивация (дальнейший переход на платные курсы или просто “от чистого сердца?”)?

2. На что заточен курс: это больше изучение базовых вещей или предусмотрено решение реальных профессиональных задач?

3. Ведете ли вы статистику по трудоустройству выпускников? Есть ли вообще внутренняя мотивация следить за успехами выпускников? Многим ли удается найти работу?

4. Часто ли бывает, что ученикам не хватает мотивации продолжать обучение?

5. Проверяется ли как-то домашнее задание?

6. Вопрос к тебе, как работодателю за пределами РФ: взял бы ты к себе на работу человека, который полностью выучился на бесплатных платформах и не имел опыта стажировок/джуниор позиции? От чего бы зависел выбор?

Так как я никогда не углублся в историю вопроса, почему бесплатно, я решил дать очень развернутый ответ. Оказалось, что мои длинные ответы сумарно на час не укладываются в регламент и было жалко резать эту запись, потому что там может быть очень ценная информация, и мы решили записать короткую версию на 5-10 минут отдельно без углубления в история, а эту историю сохранить в подкаст и дать вам послушать.

Очень рекомендую всем, кто размышлает о дальнейших карьерных планах, кто учится на data learn или планирует выкинуть кучу бабла на платные курсы. Оставляйте фидбек в комментариях и спасибо Николаю за идею!

https://anchor.fm/dmitry23/episodes/Data-Learn-e1dkmsl
Anchor
Откуда взялся Data Learn и почему он бесплатный? by Инжиниринг Данных
Нам задали вопросы про datalearn.ru и мы записали ответы, но ответы оказались очень длинными и не пригодились, но мы решили их сохранить на всякий случай.
1. Как вам пришла идея создания бесплатных курсов? В чем ваша мотивация (дальнейший переход на платные курсы или просто “от чистого сердца?”)?
2. На что заточен курс: это больше изучение базовых вещей или предусмотрено решение реальных профессиональных задач?
3. Ведете ли вы статистику по трудоустройству выпускников? Есть ли вообще внутренняя мотивация следить за успехами выпускников? Многим ли удается найти работу? 
4. Часто ли бывает, что ученикам не хватает мотивации продолжать обучение? 
5. Проверяется ли как-то домашнее задание? 
6. Вопрос к тебе, как работодателю за пределами РФ: взял бы ты к себе на работу человека, который полностью выучился на бесплатных платформах и не имел опыта стажировок/джуниор позиции? От чего бы зависел выбор?
источник
2022 February 01
Инжиниринг Данных
Хочу поделится свежими наблюдения рынка зарплат в США и Канаде. Ситуация прям кардинально меняется, не в пользу Канады.

Начну с простого примера. Компания сделала 2 оффера на позицую инженера данных, зарплата 150т Канадских в год + сток опции. Это считается хорошая зарплата в Канаде для иженера.  

Оба оффера были отклонены канадскими кандидатами, потому что они полулили оффер из штатов с зарплатой 180к US (это где-то 230к канадских). В штатах средняя базовая зарплата это 220к US для опытных специалистов. Им выгодно платить канадцам 180к US (+/-)

Сейчас реальная нехватка кадров на местных рынках и штатов есть преимущество в денежнем эвиваленте.

Но работая за US$ возникает другая сложность - это прогрессивный канадский налог на прибыль. На ЗП 150 тысяч это условно 30%, на ЗП 250т это уже 40%. При этом в штатах, налог на 1млн долларов будет таким же как и на 200т. Например, можно в Канаде иметь 2 работы по 150к x 2 = 300k CAD, но с налогом в 40% это будет большая разница ожидания vs реальность.

Завтра наши соседи возвращаются в Штаты, они продали свой таунхаус за 1,2 млн CAD (купили за 1 млн CAD меньше года назад). Ну как купили, в ипотеку взяли, как все. Но заработали 200т на ровном месте. И сегодня показали, что они купили в Техасе в Austin за 1млн $. Ставка по ипотеке там 3,5% (в Канаде это 1,6%). Огромный новый дом в high tech стиле со своей землей, такой будет у нас стоить от 3млн CAD.

Так же я ему переводил на английский некоторые посты из нашего канала про дополнительные работы, и он получил в штатах 2 работы и уже думают о покупке 2ой недвижимости, ведь налогов-то берут в Техасе всего от 20%. Update: там тоже прогрессивный налог.

В целом тренд очевиден, Канадским компаниям предложить нечего, надо любить Канаду всем сердцем и ненавидеть штаты, чтобы продолжать платить высокие налоги и зарабатывать в 3-4 раза меньше😂

Но Канада не отчаивается, потом что поток иммигрантов высок, и желающих работать за 60т в год тоже много.

Для себя я решил 2022 покрутиться в Канаде, потом ох#### от налогов в конце 2022 и полюбить Штаты🏌️‍♂️ ну или в Канаде чего поменяется.
источник
Инжиниринг Данных
Если вы переживает за размер вашего озера данных, то можно почитать про алгоритмы компрессии данных - Cost Efficiency @ Scale in Big Data File Format

У меня все просто, я ок с Parquet.
источник
Инжиниринг Данных
Airflow, Spark и Kubernetes - для тех кому скучно! Spark on Kubernetes in 2022

В один прекрасный день, я научусь пользоваться Kubernetes!=)
источник
Инжиниринг Данных
Классное видео от Snowflake - Python On Snowflake | Snowpark. Классное по 2м причинам:
1) Python на снежинке это новинка и это очень важная фича. Возможно это даже камень в огород Databricks, где наоборот новая фича это SQL=)
2) В этом видео Product Manager от Снежинки наш соотечественник Максим Лукьянов, что не может не радовать. Правда мы не знакомы, если кто знаком, приглашайте к нам на вебинарчик!
источник
Инжиниринг Данных
Оказывается сегодня начинается конференция от Microstrategy со скромным названием World 2022, Enterprise Analytics  •  Digital Transformation  •  Bitcoin Strategy

Всегда интересно послушать KeyNotes у когда-то великих вендоров BI.
источник
Инжиниринг Данных
Интересная статья про соотношение Data и Engineers. Автор проанализировал 50 европейских компаний и написал свои выводы.

You know data is having its moment when the number of open data roles for top tech companies is approaching that of engineering. But just how many data people does the best tech companies employ?

My analysis from 50 of the top European tech companies shows that the median data to engineers ratio is 1:4.

https://mikkeldengsoe.substack.com/p/data-to-engineers
https://mikkeldengsoe.substack.com/p/data-to-engineers
источник
Инжиниринг Данных
Что произошло в ML области в 2021 году? Google опубликовал свой отчет Google Research: Themes from 2021 and Beyond
источник
Инжиниринг Данных
А мне понравилась идея подкастов. У меня конечно все в режиме экспромта и качество соответсвующее, но раз есть опыт и мнение, то почему бы им не поделится. Мой новый подкаст - Карьерный рост и отношения с работодателем.

Недавно мне попалась вот такая статья - My Only and Last Regret at Google. Мужичек поработал в гугле 13 лет, и вышел на пенсии. 13 лет в гугле в Калифорнии это не шутки, можно жить в LA на пляже в особняке и денег хватит до конца жизни, если не распыляться. Но история не про это, а про его растройства из-за отказа повышения. Он опубликовал свои мысли и свои документа запроса на повышение. Но не сраслось. Грусть и печаль.  

И мне это история напомнила мои карьерные ожидания, надежды, и ложные перспективы. Поэтому я записал небольшое аудио про вопрос карьрного роста. Это мое мнение, и конечно отличается от вашего, но я рад услышать и другое мнение в комментариях.

В этом эпизоде я высказал свое мнения по вопросу карьрных перспектив и карьерного роста. За 10 лет работы я ни разу не получил повышение, но всегда чувствовал моральную нагрузку и mental health issues от ложных ожиданий (false expectations) карьерного роста и ложных целей. Поэтому я решил поделится свои мнением, которое может отличаться от вашего, как не быть ослом(ослицей) у которго перед носом висит морковка. Живите для себя, для своей семьи и не парьтесь из-за работы.
источник
2022 February 03
Инжиниринг Данных
Я написал небольшой док для коллег про структуру собеседования, потому что, у них было совсем неудобно и неэффективно. За основу взял опыт Амазона.
источник
Инжиниринг Данных
После последнего подкаста долго думал про термин такого специалиста, придумал - инженеропретер(ша) (engineer + entrepreneurship) . Вроде инженер на зарплате, а вроде и предприниматель. Вот и гугл даже картинку показала, как выглядит инженеропретер. Можно еще подработать над словом.

Еще я слышал, что резюме должно быть коротким, поэтому в удалил половину команий из него, и теперь у меня просто Терадата с 2011 по 2015, а потом Амазон. Так легче продавать(ся). Не все компании достойны быть в нашем резюме!=)
источник