Size: a a a

Инжиниринг Данных

2022 January 18
Инжиниринг Данных
Data Team Enablement 📈 👥 💪

Sales Enablement is a thing. It's been a thing for years. It is a discipline (Sales Enablement Manager) and a process and category of tools.

Data Team Enablement is everything that improves the speed, quality, and cost of delivery of data products.

Data Team Enablement is everything that helps data professionals offload low-value, high-effort work in favor of high-value outcomes.

Data Team Enablement is:

People
a. Mature management, who has done the job before.
b. Standardized hiring practices for analysts, DS, engineering.
c. Defined ownership, whether shared or individual, over deliverables, outcomes, and analysis.

Process
a. Here is how we run a ticketing queue. Here are the SLAs.
b. Here is how we balance tech debt with backlog with proactive work.
c. Here is how we validate correctness, version control, and ensure repeatable outcomes.

Technology
a. This tool enables analysts to discover data quicker.
b. This solution helps data engineers and analysts communicate better.
c. This platform helps detect errors immediately, thus saving the team 20 hrs a month. (c)
источник
Инжиниринг Данных
Вакансия: Junior Capabilities & Insights Analyst

Любите работать над исследовательскими задачами? Если да, то у McKinsey Россия @mckinseyrussia для вас интересная вакансия — Junior Capabilities & Insights Analyst: https://mck.co/3Cr7iE9

Вам предстоит извлекать инсайты из обширных данных, выявлять тренды и вместе с консультантами формулировать обоснованные рекомендации для решения бизнес-задач клиентов.

Эта позиция для студентов старших курсов и выпускников 2021 года, которые специализируются на математике, физике, экономике, финансах, статистике или бизнес-информатике.

Ближе познакомиться с командой Capabilities & Insights, в которой вы будете работать, вам помогут эти материалы:
— Как устроено это направление: https://vk.cc/ca4YMm
— Видео с ответами на самые популярные вопросы о Capabilities & Insights: https://youtu.be/Sxp6_nHGCcg

#промо

PS пост поддержал приют для собак
источник
Инжиниринг Данных
Несмотря на то, что новсть про Microsoft to acquire Activision Blizzard to bring the joy and community of gaming to everyone, across every device появилась только сегодня, она уже облетела весь мир и я о ней узнал последний. Но тем неменее если, вы еще не знаете.

В наших кружках инженеров данных уже гадают про объемы данных, которые добавятся в Xbox. И скоро мы узнаем, как у них там работает инжиниринг данных. Например, когда Xbox приобрел Officially Welcoming Bethesda to Team Xbox, я был первый инженер, кто познакомился с их командой и узнал, как они работают. Кстати используют databricks+scala для всего. Надеюсь получится узнать и про Activision Blizzard.

Вообще удобно, по цене game pass можно получить все лучшие игры. Я лично хочу поиграть в Last of Us 2, но надо ждать, когда Xbox купит Playstation=)
источник
2022 January 19
Инжиниринг Данных
Еще в 2013 году нам нарисовали комикс про облачные вычисления. Мультик озвучен Stephen Fry, он же озвучивает аудио книгу о Гарри Поттере, приятная аудио книга, чтобы учить английский.
источник
Инжиниринг Данных
Financial Times любит заморачиваться с графиками и визуализацией=)
источник
Инжиниринг Данных
Попытка номер 2!😇 Вы используете password manager?
Анонимный опрос
7%
LastPass
9%
1Password
6%
Bitwarden
1%
Keeper
13%
Keepass
8%
Apple Keychain
21%
Chrome/Firefox/Browser
10%
Old School (excel, notepad, etc)
25%
Not use at all
Проголосовало: 1251
источник
Инжиниринг Данных
В комментах расшарили хорошее видео про open source менеджер паролей для Linux - pass. Вообще идея использовать хороший менеджер пароль в современном мире очень правильная. В идеале для каждой системы должен быть свой уникальный пароль и включен MFA. Это для личного пользования, а для рабочего, особенно когда работаем с данными, это крайне важно!
источник
2022 January 20
Инжиниринг Данных
Многие знакомы с Agile и Scrum. И только ленивый не используют эти подходы на работе. Всякие daily stand up, retrospective, poker planning,  и sprint planning уже въелось глубоко в голову🙈 А вот в статье Don’t Make Data Scientists Do Scrum есть opinion на эту тему.
источник
Инжиниринг Данных
Я люблю рассказывать про 2 типа дата инженера - gentle и hardcore. А вот в этой статье тоже есть 2 типа инженера:

(1) Data Engineers: Software engineers, Data
Described as: Software engineering specialists, with data as the core specialisation, who can focus on the niche areas of data engineering and can work with complex real-time data systems.

Needed When: Only required in tech businesses, and only when software engineers cannot assist. This is not needed for 99% of businesses and these candidates know what they want to work on and have the agency to decide.



(2) Data Engineers: Solutions oriented engineers, Data
Described as: Business optimisers. Data engineers that engineer data because it is the biggest blocker in the optimisation of a bigger picture issue, namely analytics as it relates to business improvement efforts.

Needed when: Data engineering data extraction and centralisation is identified as the key issue in a long line of issues. The primary bottleneck in the optimisation process.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Если google относится к SQL как языку программирования, то почему бы и нам так не думать про него. А вы как его воспринимаете?
источник
2022 January 21
Инжиниринг Данных
Писал про Microsoft Garage - место где можно изучать 3d printing, паяние, микроконтроллеры. Ещё у них есть библиотека, где можно брать вещи напрокат, например робот Romomaster S1. Есть дроны, и Microsoft Lens.

Я взял этот танк поиграть детям. Его цена почти 700$. Можно управлять с телефона, работает по wifi. Есть возможность использовать визуальный coding, и даже поддержка python, чтобы сделать его автономным.

В целом это штука не стоит своих денег. Код можно писать только через app, и если только телефон , то экран малюсенький. На сайте есть "типа тренинги по роботам", но на самом деле это несколько 10ти минутных роликов вводных. Отличная идея и технология, но вот интерфейс для взаимодействия мне не понравился и очень мало материалов. Но детям нравится ездить по дому и стрелять в родителей маленькими шариками🤪
источник
2022 January 23
Инжиниринг Данных
Полностью согласен с автором, что нужно знать SQL, CLI (командная строка), git. Именно поэтому datalearn именно с этого начинается и используются SQL, git, CLI почти во всех модулях.
источник
Инжиниринг Данных
Статья про сравнение Airflow, Prefect и Dagstrer. Набор такого дата хипстера со знанием питона и неотъемлемая часть buzz word - modern data stack, про который я любил рассказывать на конференциях в 2018 году и раньше. Теперь мне уже стыдно даже в канале писать про modern data stack. Это уже как писать про современное средство передвижение - электро автомобиль🤗

Кстати со всеми этими workflow-orchestration инструментам, есть одна большая проблема - production использование. Запустить докер на ноутбуке и установить туда airflow, а вот чтобы сделать production ready систему это уже большая и сложная задача. И самое главное у наших open source инструментов очень ограниченная документация по этому вопросу. Зачем вам это знать, ведь есть платная версия в cloud, за вас уже все настроили.🤑
источник
2022 January 25
Инжиниринг Данных
Раньше все дети учили английский любыми возможными способами! Теперь все дети учат англиский и программирование, тоже, всеми возможными способами! В будущем, надо будет учить детей работать руками.
источник
Инжиниринг Данных
Недавно думал о современных требованиях к инженерам. Все вы знакомы с моим разделением специалистов на бизнес ориентированных (gentle) и инженерно-технических(hardcore).

Что уж там лукавить, 2м быть лучше, даже если зарплата будет одинакова(а она одинакова на западе💯), возможностей больше у 2х, именно поэтому мы всегда открыты новому и продолжаем постигать азы питона, командной строки и Гита.😋

Но теперь можно разделить специальность в другой плоскости:
- создание инфраструктуры с 0
- использование существующей инфраструктуры

И не важно какая роль, может быть задача по созданию и использованию платформы данных, может быть выбор BI инструмента.

Ведь получается, могут взять нас на работу, а там уже есть хранилище данных, ETL инструмент (python based или UI), BI инструмент и другие вещи. Нам остаётся только научиться этим пользоваться, но мы можем совершенно не знать как все это дело работает и взаимодействует, у нас нет доступов, нет понимании всей картины. Хороший пример это Сбербанк. Сиди себе тихо и клепай отчетики или трансформации данных. Такая вот обезьянья работа🐒 (сам через это
прошел, в Сбере).

А есть задачки, где надо с 0 выстроить инфраструктуру, вот где реальный опыт и знания и ниодни курсы вас не научат, ну может в даталерн вам расскажу дополнительно про системы и их установку и всю экосистему🤫.

А так обычно на курсах вас будут учить инструментам, но не инфраструктуре, для меня ценность инфраструктуры выше, чем знание конкретного инструмента.

В общем, получилось ещё 2 категории инженеров:
1. Узко специализированные Кнопко нажиматели и мышкокликатели.

2. Инфраструктурно ориентированные многостаночники.

А вам как видится с вашей колокольни?
источник
Инжиниринг Данных
Когда вы выучить data, найдете хорошую работу, какой автомобиль вы купите? А может уже планы осуществили и купили, кидайте тогда фотку в комменты для мотивации нам всем!😜🤑😎
Анонимный опрос
10%
Mercedes
14%
BMW
11%
Audi
11%
Volvo
15%
Tesla
4%
Lexus/Infinity
13%
Toyota/Honda/Nisan/Mitsubishi
4%
Cadillac/Chevrolet/Ford
6%
Range Rover/Jaguar/ Alfa Romeo
13%
Другой ответ в комментах
Проголосовало: 753
источник
2022 January 26
Инжиниринг Данных
Lake House архитектура становится все популярней. Вендоры активно развивают open source решения и добавляют их к себе в портфолио.

1. Snowflake (неожиданно) решил добавить поддержку Apache Iceberg.
2. AWS Elastic Map Reduce (Hadoop) добавил поддержку Apache Iceberg, до этого они активно использовали Hudi и Delta Lake (последнее мы даже использовали в Alexa).
3. Apache Hudi написали пост по результатам 2021 года. И другой пост про Change Data Capture подход с использованием Debezium (для Postgres и Mysql).

В общем и целом, lake house наше будущее, пока что. А дальше видно будет=)
источник
Инжиниринг Данных
Нужно ли провести вебинар про Lake House? Рассказать как я использую его, что это и показать пример Delta Lake? (Можно выбрать несколько вариантов)
Анонимный опрос
52%
Нужно!
17%
Мне бы понять что такое Data Warehouse?
11%
Вообще не плохо знать, но что мне с этим знаями делать
1%
Не нужно!
1%
Еще один poll и я точно отпишусь от канала!
15%
Хотим больше вебинаров, хотим модуль 7,8,9! Давай уже заканчивай свой datalearn хваленый!
0%
Ваш вариант в комментах.
2%
Ах, чуть не забыл! Нам задаром не сдался ваш lake house! У меня дача хорошая с баней и речкой.
Проголосовало: 897
источник
Инжиниринг Данных
Я сейчас читаю лекции в университете по Cloud Computing для бизнес студентов. Студенты подключаются из Канады, Филипин, Кореи и Южной Америки. Cloud Computing это технический топик и лабы там тоже технические. Иногда мне жалко студентов, мне кажется они засыпают. Я их развлекаю картинками из комиксов про облачные вычисления и историями из Амазона и Майкрософт.

Но вчера зашел вопрос про поиск работы в Канаде. Я далеко ходить не стал, показал картинку с лошадкой и рогом из рожка для мороженного с подписью fake it till you make it, показал им канадские зарплаты, рассказал как нужно создать себе резюме на примере мужичка, который работал security guard.  Упомянул про 20 собеседований, которые надо завалить, чтобы понять, что от вас хотят.

Но главное, это выбрать роль, кем работать, потому что, они все думают, что надо учить отдельно стоящие вещи, типа языки программирования, программы разные и тп. Но совершенно не понятно для чего.

В общем им все очень понравились и они все подумали "А что так можно было?"🤣  Получается, что не важно где вы и что делаете, проблемы у всех схожие на карьерном пути
источник