Size: a a a

Инжиниринг Данных

2021 February 10
Инжиниринг Данных
источник
Инжиниринг Данных
Кто-то заморочился:

So I wrote a 5400-word lecture note on the basics of data engineering for my students, covering:

* data formats (row- vs. column-based, text vs. binary)
* ETL
* batch processing vs. stream processing
* training datasets

This is a work in progress.


https://docs.google.com/document/d/1b9iuZiDEGVLHyMmnf6w2y1aN6yWQhAyqk3GHlpI9q6M/edit
источник
2021 February 11
Инжиниринг Данных
Вопрос про инвестиции: Если бы у вас были акции на 100k-200k$ (или в России эквивалент 1-2 млн рублей), что бы сделали? Можно выбрать несколько вариантов (то есть разделили бы в какой-то пропорции).
Анонимный опрос
10%
Купили бы крипту валюту
7%
Купили бы металлы (золото/серебро)
14%
Купили еще недвижимость (использовать как первоначальный взнос), чтобы основную сдавать
11%
Оплатил бы себе образование (MBA, новая специализация в хорошем университете)
2%
Купил бы машину
6%
Оставил все как есть
21%
Ничего не делал, ждал бы пока акции подрастут
12%
Использовали бы как начальный капитал на иммиграцию
12%
Купили бы себе первоначально жилье (как первоначальный взнос)
5%
Ваш вариант
Проголосовало: 1131
источник
Инжиниринг Данных
источник
Инжиниринг Данных
#вакансия #москва #snowflake #dataengineer

Крутая вакансия и солидное вознаграждение!🔥

Архитектор данных (Snowflake❄️) в «ФИНАМ» (крупнейший брокер Восточной Европы).
Мы ищем сотрудника, который организует автоматизированный сбор данных из различных источников в единое централизованное хранилище Snowflake. Опыт работы со Snowflake – обязателен.
Локация - Москва, гибридный формат работы (удаленно и в офисе)
Компенсация по вакансии обсуждается индивидуально – от 300К+ net.
Отклики и вопросы в @baibakova или ebaybakova@corp.finam.ru

PS как обычно хорошо поддержали vsevsevmeste☺️
источник
Инжиниринг Данных
По вакансии выше, хочу добавить от себя. Я пообщался с ними, и возможно можно добавить, что важен следующий опыт:
- опыт с AWS или Azure или сертификация Solution Architect, ну или опыт, чтобы можно было создать решение в облаке, обеспечить безопасность, настройки сети и тп
- понимание как работать с DW и ELT в облаке, например опыт с Redshift/BigQuery/Synapse и Glue/Data Factory
- знать как развернуть BI и подключить все это дело вместе (end to end ELT, DW, BI)
- понимать как построить DW с точки зрения создания модели данных
- инструменты обеспечения качества данных и документации
- умение использовать элементы DevOps для кода (CI/CD, Git)

То есть опыт со Snowflake это хорошо, но сам продукт не сложный, важно знать принципы создания облачного решения по аналитики и иметь подходящий опыт. Про Python я тоже особо ничего не сказал, так как можно и без него обойтись, например использовать dbt (будет шикарно и на SQL + CI/CD).
источник
Инжиниринг Данных
А вот и видео новое по курсу ML&DS 101 от Анастасии Риццо.

В этом уроке мы:
1) Пройдем весь Exploratory Data Analysis, который включает в себя:
           📌   Descriptive Statistic
          📌    Observation of target variable
          📌    Missing Data
          📌    Numerical and Categorical features

2) Рассмотрим Data Wrangling and Transformation:
          📌    Multicollinearity
          📌    Standard Scaler
          📌    Creating datasets for ML part
          📌     'Train\Test' splitting method

https://youtu.be/S-ZBb4yvxAQ
источник
Инжиниринг Данных
А вот новый урок по курсу Job Hunting 101 от Анастасии Дробышевой!

- 3 основных составляющих цели, полезных для резюме;
- 2 дополнительных составляющих цели;
- причём тут популярная марка автомобиля.

https://youtu.be/_vd69ekKwk4
источник
Инжиниринг Данных
Классная статья про галстуки. Мне нравятся галстуки, потому что я одеваю его раз в год. А вот когда заставляют носить его, это уже перебор. С работой из дома дресс код совсем пропал. У меня была одна история в Канаде, когда я только приехал в Виннипег и устроился в страховую Sr BI developer, я не очень сработался с коллегами женского пола, потому что я не знал про особенности и имел опыт несколько раз неудачно пошутить… Один раз меня вызвали к начальнику, за то что я был в темных джинсах а не штанах, кто-то доложил куда следует. Хотя мы работали в кубиках, меньше вообще не видно было. И я там бегал как будто в стартапе работал (за это тоже я не очень им подходил). И он меня отправил домой пересевать штаны! Смех сквозь слезы)) Зимой в -30 на 2х автобусах домой и обратно. За что я им чрезмерно благодарен, так я попал в Амазон.
источник
2021 February 12
Инжиниринг Данных
Ну можно считать Mission completed! Присягнули королеве👸 и стали Канадцами🇨🇦 (онлайн). Хорошо, что РФ позволяет иметь два гражданство. От идеи до реализации где-то 7 лет. Если еще не читали, на хабре было про переезд в Канадуl
источник
Инжиниринг Данных
Дело говорят!
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Интересная статья от бывшего коллеги из Черногории “I AM A PROFESSIONAL IMPOSTOR”. Как раз как мы любим - fake it till you make it😜

PS Imposter - самозванец.
источник
Инжиниринг Данных
Инверсная статья про сравнения Amazon и Microsoft. https://vc.ru/hr/207322-amazon-protiv-microsoft-otlichiya-intervyu-v-it-gigantah
источник
2021 February 13
Инжиниринг Данных
Пример текущей задачки по Databricks, которую не знал как решить, но потом осилил и сам написал ответ на свой вопрос).  https://stackoverflow.com/questions/66107803/azure-databricks-external-hive-metastore/66128066#66128066
источник
Инжиниринг Данных
Кто работает в качестве “Button”))
источник
Инжиниринг Данных
Kaggle State of Machine Learning and Data Science 2020
источник
Инжиниринг Данных
Метрики наших сообществ:
- 2000 человек в нашем Slack DataLearn, и видно как все больше людей начинают активно общаться и решать рабочие вопросы
- 6000 человек в телеграм канале (вчера перевалило)
- 60000 рублей собрали на благотворительность
- 3 активных курса (DE-101,JH-101,DS&ML-101)
- 2 курса в разработке (SQL-101, DevOps для Data Engineering)
- 16 вебинаров с экспертами и еще много вебинаров готовиться
источник
2021 February 14
Инжиниринг Данных
В Databricks есть свой front-end (читай BI) - SQL Analytics. Но есть и еще альтернатива интересная - Dash от Plotly.
источник
Инжиниринг Данных
Всем привет! 14 февраля - не только День святого Валентина, но и день рождения группы Power BI Group RU, самого большого русскоязычного сообщества влюбленных в Power BI в Telegram. Здесь всегда будут новости, полезные ссылки, жаркие дискуссии, но, главное, активная помощь друг другу. Присоединяйтесь!

https://t.me/PBI_Rus
источник