Size: a a a

Инжиниринг Данных

2020 February 29
Инжиниринг Данных
Stugile
источник
Инжиниринг Данных
Еще одна статья про коллаборация data engineers, analysts and data scientists. Мне особенно понравилось, как автор называет знакомые нам вещи другими именами (можно сказать синонимами.

Сначала он рассказывает, чем они занимаются:
1)Releasing analytics products - это тоже самое, что делать BI, дашбордики, отметики, витрины данных и тп (кстати давно не слышал это слово)

2)Industrializing machine learning pipelines - делают data science, наверно модельки на python и дальше их уже деплоят.

Дальше он про challenges Releasing analytics products:
1)Translating business rules to code - это старо как мир, понять бизнес логику и засунуть ее в отчет или analytics product.

2)Scheduling data aggregations/consolidations - ну это ETL. Логика их п1 нужно поставить на расписание, и как правило когда рассчитывают метрики, данные агрегируют.

Потом он пишет Our data lake is on BigQuery, и я не против, так как грань между Data Lake и Data Warehouse стирается, и теперь есть Data Platform и к ней SQL интерфейс.

Our scheduling tool is Apache Airflow - то есть для ETL у них open source, про него вы слышали. Логика ETL написана на Python т обязательно есть процесс CI/CD и версионность в GitHub.

Теперь про Industrializing machine learning pipelines:

Все как обычно - training, prediction, and evaluation. Мне еще понравилась фраза: Machine learning blueprint. Я пока не использовал ее в своем лексиконе.

Походу тексту я заметил такую цитату: Have you ever realized after a long debate that you were all talking about the same thing from the beginning but using different words? Мне кажется автор в таком стиле всю статью написал:)

===

Что касается терминологии, сейчас сильно поменялась терминология. Например, я просматривал вакансии и теперь уже пишут не Директор BI, а Директор Data Platform и тп.

Так как с консалтингом у меня был затык в продажах, то я решил практиковаться с C-level. Для этого я откликнулся на вакансии типа Director Analytics, Director Data Platform и тп в Ванкувере, Сиэтле, Бостоне и Калифорнии, и общаюсь с CFO, CTO, CMO. Таким образом, я изучаю нужны компаний, узнаю сколько где платят, и получаю опыт общения с топами. В принципе я уже понял что нужно говорить и разряда - Моя задача помогать компаниям достигать бизнес целей с использованием данных и аналитики (заработать деньги, сократить косты и устранить риски), разработать дата стратегию и видение и внедрить ее, используя инновационные решения.  

По опыту точно скажу, собеседование это лучший опыт для развития навыков, вам бесплатно проведут срез знаний, вы поймете, где у вас пробелы, так же вы научитесь бороться со стрессом и получать удовольствие от процесса, а как бонус можно слетать на выходные в другой город бесплатно.
источник
Инжиниринг Данных
источник
2020 March 01
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2020 March 02
Инжиниринг Данных
Полистал эту книжку, очень понравилась. Особенно если вы продаете/внедряете аналитику или строите систему с нуля. Много материалов про взаимодействие с бизнесом.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Хорошая подборка книг по аналитике и управлению от эксперта по аналитике https://steffine.com/my-bookshelf/
источник
2020 March 03
Инжиниринг Данных
источник
Инжиниринг Данных
Теперь перекос с diversity в другую сторону))
источник
2020 March 04
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Привет, сегодня я планирую выступать на первой Snowflake User Group в Канаде в Ванкувере. Это будет в 6.30 PM PST. Вот zoom конференция, вдруг получиться подключиться.  А вот и презентация.
источник
2020 March 05
Инжиниринг Данных
Мне кажется отличный вариант начать учить Python, как говорят "real shit", это значит хороший курс))
источник
Инжиниринг Данных
источник
Инжиниринг Данных
https://go.slalom.com/moonshot какой то мега крутой ивент от slalom, вот веб регистрация https://go.slalom.com/Moonshot_LiveStream
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Matillion, который предлагает классный ELT для Redshift, Snowflake, BigQuery (+ скоро Azure Synapse), выпустил бесплатную версию с набором API конекторов для различных маркетинговых источников (Youtube, Facebook, SalesForce и много других),  если нужно грузить данные из этих систем (довольно большой список поддерживает) в облачное хранилище, то можно попробовать. https://www.matillion.com/products/data-loader/
источник
Инжиниринг Данных
Консалтинговые компании по аналитике как грибы, что не день, то новая компания, все предлагаю примерно одно и тоже, вы нам заплатите, а мы ваши данные покрутим. А вы открыли консалтинг по аналитике?
источник