Size: a a a

Инжиниринг Данных

2020 April 15
Инжиниринг Данных
Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.
источник
Инжиниринг Данных
Сегодня был Webinar на котором показали архитектуру платформы данных на базе Google Cloud Platform и Snowflake
источник
2020 April 16
Инжиниринг Данных
Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068
источник
Инжиниринг Данных
Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.

Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.

VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.

PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики

Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.

matplotlib - библиотека для создание графиков и 2х мерной визуализации.

IPython - продвинутая среда для Python

SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).

scikit-learn - библиотека для ML

statsmodels - статистический пакет

А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
источник
Инжиниринг Данных
Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.
источник
2020 April 17
Инжиниринг Данных
источник
Инжиниринг Данных
Apache Super Set - open source BI, интересный пост и пример работы инструмента https://preset.io/blog/2020-04-15-github-community-dashboard/
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают

Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).

Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
источник
2020 April 18
Инжиниринг Данных
Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
источник
2020 April 19
Инжиниринг Данных
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
источник
Инжиниринг Данных
Обзор отечественных BI
источник
Инжиниринг Данных
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
источник
2020 April 20
Инжиниринг Данных
источник
Инжиниринг Данных
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).

Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.

Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
источник
Инжиниринг Данных
Презентация про Data Engineering. Пришло 50 человек, что говорит о зрелости рынка и об интересе к вакансии, точнее его отсутствия. https://docs.google.com/presentation/d/1_UysT1KWOaPczXgZ3V5DX_-E4pWIQz5dIndEnqS0UsI/edit#slide=id.gc6f9544c1_0_53
источник
2020 April 21
Инжиниринг Данных
Open Source рисовалка диаграмм https://github.com/jgraph/drawio
источник