Еще одна
статья про коллаборация data engineers, analysts and data scientists. Мне особенно понравилось, как автор называет знакомые нам вещи другими именами (можно сказать синонимами.
Сначала он рассказывает, чем они занимаются:
1)
Releasing analytics products - это тоже самое, что делать BI, дашбордики, отметики, витрины данных и тп (кстати давно не слышал это слово)
2)
Industrializing machine learning pipelines - делают data science, наверно модельки на python и дальше их уже деплоят.
Дальше он про challenges
Releasing analytics products:
1)Translating business rules to code - это старо как мир, понять бизнес логику и засунуть ее в отчет или analytics product.
2)Scheduling data aggregations/consolidations - ну это ETL. Логика их п1 нужно поставить на расписание, и как правило когда рассчитывают метрики, данные агрегируют.
Потом он пишет Our data lake is on BigQuery, и я не против, так как грань между Data Lake и Data Warehouse стирается, и теперь есть Data Platform и к ней SQL интерфейс.
Our scheduling tool is Apache Airflow - то есть для ETL у них open source, про него вы слышали. Логика ETL написана на Python т обязательно есть процесс CI/CD и версионность в GitHub.
Теперь про
Industrializing machine learning pipelines:
Все как обычно - training, prediction, and evaluation. Мне еще понравилась фраза: Machine learning blueprint. Я пока не использовал ее в своем лексиконе.
Походу тексту я заметил такую цитату:
Have you ever realized after a long debate that you were all talking about the same thing from the beginning but using different words? Мне кажется автор в таком стиле всю статью написал:)
===
Что касается терминологии, сейчас сильно поменялась терминология. Например, я просматривал вакансии и теперь уже пишут не Директор BI, а Директор Data Platform и тп.
Так как с консалтингом у меня был затык в продажах, то я решил практиковаться с C-level. Для этого я откликнулся на вакансии типа Director Analytics, Director Data Platform и тп в Ванкувере, Сиэтле, Бостоне и Калифорнии, и общаюсь с CFO, CTO, CMO. Таким образом, я изучаю нужны компаний, узнаю сколько где платят, и получаю опыт общения с топами. В принципе я уже понял что нужно говорить и разряда - Моя задача помогать компаниям достигать бизнес целей с использованием данных и аналитики (заработать деньги, сократить косты и устранить риски), разработать дата стратегию и видение и внедрить ее, используя инновационные решения.
По опыту точно скажу, собеседование это лучший опыт для развития навыков, вам бесплатно проведут срез знаний, вы поймете, где у вас пробелы, так же вы научитесь бороться со стрессом и получать удовольствие от процесса, а как бонус можно слетать на выходные в другой город бесплатно.