Size: a a a

Инжиниринг Данных

2020 October 21
Инжиниринг Данных
Пошаговая инструкция для Product Managers, как создавать ML продукты.

От себя добавлю. Польза ML уже доказана для бизнеса. В индустрии есть куча примеров для внедрения ML решений.

Например:
- ранжирование выдчи продуктов для маркетплейсов
- рекомендация товаров и услуг
- классификация продуктов
- бюджетирование и прогнозирования спроса/продаж/действия пользователя
- поиск аномалий
и многое другое.

Product Manager именно тот человек, кто является двигателем прогресса в продуктах и сервисах.
источник
Инжиниринг Данных
А вот информация от AWS
источник
Инжиниринг Данных
Отличный пример использования визуализации для введение в ML. Это очень известная ссылка, но вдруг вы не встречали.
источник
Инжиниринг Данных
Завтра в это же время будет супер ивент c data monsters. Будет 2 спикера:
- Irja Straus - расскажет на английском про Test Strategy in Data Driven World.

Затем я расскажу про 5 лет в Амазон (на русском)! Почти закончил презентацию, получилось интересно!

https://youtu.be/q5K-iUFg-kA
источник
2020 October 22
Инжиниринг Данных
Отличия ML и DS

Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.

почему специалистов по машинному обучению называют дата саентистами?

пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.

Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.

→ то есть не Data Scientist, а ML Engineer


- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.

Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.

⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.

Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.

Подкаст в iTunes и Overcast
источник
Инжиниринг Данных
Все привет, мы начинаем. Я наверно минут через 40 расскажу про несколько проектов и концерт Ленинграда в Сиэтле)) Наливайте комбучу и садитесь поудобней))
источник
Инжиниринг Данных
А может кто-то умеет рисовать стикеры? Можно классных стикеров нафигачить для datalearn...

Вообще поле не паханное со стикерами. Аудитория по дате большая во всяких каналах, а вот стикеров мало;)
источник
2020 October 23
Инжиниринг Данных
Какое-то время я думал, что следующее большое дело в аналитике это renewable energy. Ветряные мельницы и солнечные батареи. Но пока мы еще не дошли до этого. Вот интересный пример использования данных для такой индустрии. До сих пор главный доход у гигантов индустрий от Ad revenue.

Когда я был в Amazon Alexa. Я так же думал, что Alexa это круто, но по факту Amazon создает рынок, и нет пока реального спросы на специалистов со знанием голосовых помощников, в мире всего несколько компаний делают такие девайсы.

Мне кажется, другая крупная индустрия, сопоставима с Ad, это gaming. Если посмотреть, то Amazon, Google, Facebook - инвестируют в сервисы для gaming платформ и стриминга.

А вы как думаете?
источник
Инжиниринг Данных
Тут затронули вопрос про аналитику игр, и я нашел классный пост, в котором есть ссылка на 2 топ книги, и одна из них 800 страниц и стоит 150$, причем в ней нет про data analytics внутри, прям альманах. Но еще там много ссылок на главные статьи по игровой аналитике.

Еще посмотрел на курс devtodev, там совсем простенько все. Думаю подайдет всем аналитикам, кто измеряет эффективность приложений.
источник
2020 October 24
Инжиниринг Данных
источник
Инжиниринг Данных
Все привет, есть интересный вариант для специалистов в области аналитики. Подойдет опытным коллегам. Я вам рассказывал про консалтинг компанию rockyourdata.cloud, которая занимается analytics engineering на рынке Северной Америке. Особенно в штатах довольно крупный рынок и есть возможность иногда предоставлять консалтинг услуги за $. Благодаря разнице курсов, есть возможность демпинговать цены на американском рынке и посутит конурировать с консалтингами из Индии.

Я нашел людей, кто заинтересован в развитии консалтинга и создания sales funnel. И возможно в будущем это даст свои плоды.

Например сейчас есть потребность в 2-3 data engineers со скилами: AWS, Spark, Data Lakes (S3), Python/Scala, Airflow and Redshift и со знанием английского языка на 3-4 месяца.

Если отличная возможность вписаться. Я создал форму для бывалых специалистов, кто работал с облаком, big data и современными аналитическими решениями.

1) Если вам интересен проект из долины по data engineering, то заполните форму.
2) Если вы являетесь крутым специалистом в своей области, со знанием английского, то тоже заполните форму.

Ссылка на опрос.
Спасибо!
источник
Инжиниринг Данных
Страшно смотреть в сторону ML😵
источник
Инжиниринг Данных
Возможно кто-то уже слышал про Deeprace. Это машина в масштабе 1:10, у которой есть камера, процессор, wifi. Машинка стоит почти 400US$. Когда мы ее достаем из коробки - они ничего не умеет, задача с использованием ML, научить ее ездить по треку. Когда модель едит через камеру она может сканировать дорогу и отправлять команды, что делать.

AWS создало - Deeprace league - соревнования таких умных авто. Это очень интересное занятие, но подходит больше для offline ивентов. Так как у нас в университете есть организация HighTechU, где выпускники школ создают ИТ проект за 7 недель, учать git, coding, agile и team work. Я там являюсь ментором, и продложил инвестировать в трек. Если получиться, будет здорово! Так же было бы прикольно такое сделать для offline meetup datalearn, когда пройдет covid и учить основы ML через такую игру.
источник
Инжиниринг Данных
У Амазона новое подразделение - Amazon Pets.
источник
Инжиниринг Данных
Я рассказывал, что хочу сдать AWS Cloud Practitioner и BigData экзамен, который переименовали в Data Analytics. Так вот, каждый день по 6-8 часов смотрю видео и делаю лабы. Это мега скучно, и я уже пожалел, что записался. Для экзамена надо знать такие подробности, например, сколько мб может писать kinesis, сколько WCU и RCU у Dynamo и тп. Много чисел и определений.

В общем я склоняюсь, что экзамен и сертификация фигня. Есть серьезные экзамены, где надо установить сервер и решить проблему - это круто. В общем я конечно попробую сдать, но думаю будет как с AWS Solution Architect 2 года назад, с наскока не сдал и забил.  Так что, могу заявить сертификация переоценена, я кстати на собеседованиях даже не смотрю и не спрашиваю про сертификаты у кандидатов.

Из + есть много контента для лаб модуля 8 по компонентам Hadoop (hive, hbase, hue, zeppelin, spark, pig и другие).

Кстати про нужные экзамены. В сентябре я прошел 2х дневный курс и сдал на лицензию по охоте. А завтра начнется курс по оружию.
источник
2020 October 25
Инжиниринг Данных
Прислали вопрос про Scala. Я расскажу как мне видится, вы в коментах можете написать как вам видеться.

Внимание вопрос(ы)😊:
Применение языка Scala в области дата инжиниринга/data science/BI.
1. Стоит ли учить данный язык, если уже знаешь Python?
В целом мне кажется, если вы знаете Python, то разберетесь и со Scala. Для аналитики и инжиниринга данных нам хватает скиптов и мы не пользуемся объектно ориентированным программирование. (Или вы пользуетесь?).

Для меня главная прична использвания Scala это Spark, так как он создан на Scala и большинство примеров, даже в книгах, тоже на Scala.

Лично я бы даже не стал бы смотреть на scala, пока не оказалась, что внутренний сервис амазона, которые нужен чтобы выкачивать данные из amazon data lake в S3 (для собственного озера). Сервис называется Cradle, это тот же EMR + Spark (своего рода ETL для больших данных, который мы подробно разберем в модуле 8, такой подход нужен когда традиционные решения ETL/ELT/DW не хватает). Так вот, они создали красивый интерфейс, в котором есть поддержка Spark SQL. Все бы ничего, пока не столкнешься с проблемой автоматизации, загрузки истории и других вещей, которые легко сделать в коде с помощью циклов (loop) и функций типа if then else. В SQL все очень просто - 1 регион, 1 запрос. Но есть и поддержка Spark Scala. Вот теперь то можно использовать всю мощь языка программирования. Я вот Scala не знал, но зная PySpark впринципе быстро разобрался, что к чему, а если бы еще и прочитал книжку по основе Scala, было бы хорошо.

Отсюда вывод, в моем случае Scala нужна была для того, чтобы решить конкретную задача, и потому что, моя версия spark не поддерживает PySpark. Еще из плючов, библиотека Deeque для Spark (jar файлф) для unit тестов и data quality. Так что если знаете Python, специально учить не надо, на месте разберетесь, если это только не must have на работе. Еще я знаю, что Scala быстрее значительно.


2. Есть ли успешные кейсы по применению Scala без Hadoop/Spark в небольших компаниях?
Я думаю вариантов много. Но оставли этот вопрос открытым для подписчиков🤗

3. Перспективы Scala в крупнейших компаниях мира (появление сильного языка-конкурента, отказ от собственных решений в пользу облачных продуктов  и т.д.)?
Не надо путать облачный продукты с low code приложениями. Облачные решения это лишь framework где нужно писать свою логику. Для аналитики данных можно использовать и Scala и Python, но мне видится, что Python просто стал более популярным и поэтому #1 в аналитике и инжиниринге данных.
источник
Инжиниринг Данных
Всем привет!

Недавно у нас был эвент с  DataMonster, на котором я рассказал про 5 лет работы в Amazon. Как обычно Роман Пономарев подготовил видео для YouTube и сделал очень подробное описание и добавил time codes.


В видео я подробно расскажу про собеседования в Амазоне, в каких командах я работал и какие решения внедрял, про свои сообщества и как построить карьеру.

Структура выступления:
📌 Про меня
📌 Начало работы в Амазон (Amazon)
📌 1-ая команда
📌 Сообщества
📌 Datalearn
📌 2-ая команда
📌 3-яя команда
📌 Идеи по развитию карьеры

Таймлайн:
0:00 - Введение от Дмитрия Аношина (5 лет в амазон)
1:54 - Содержание
2:15 - Про меня
3:43 - Образование
4:56 - Основные этапы
6:29 - Рубрика была - стало
8:31 - Осталось навсегда
9:00 - Начало работы в Амазоне
9:03 - Собеседование в Амазон
12:15 - 1-ая команда: Модернизация аналитики, Виктория, БС
13:12 - Воспоминания
14:53 - Миграция аналитики в облако
17:40 - Примеры в индустрии (миграции в облако)
19:29 - Что было в моем случае
20:09 - Шаг 1: облачная инфраструктура и DW
22:09 - Шаг 2: BI FROM Excel to Tableau
22:55 - Шаг 3: новые кейсы - Streaming + BigData
24:54 - Сообщества
25:01 - Развитие data сообществ
26:40 - DataLearn.ru
27:14 - Курс Analytics Engineering
28:05 - 2я команда
30:38 - Как работает Алекса
32:16 - Качество Alexa
34:00 - Решение - Платформа Спутник
38:00 - Архитектура в Redshift (почему Redshift?)
38:57 - Challendge1: DE vs SDE
42:00 - Challenge 2: Privacy
43:24 - DE+DS: отток клиентов Alexa(Churn)
44:37 - 3-я команда: Создание ML...
46:54 - Проекты (моя роль: инженер данных в Science Team) onsite features attribution, customer perception
50:55 - Архитектура решения
51:36 - Архитектура вместе с SageMaker
53:41 - Типичный ML проект
55:47 - Роль Data Engineer на проекте ML
56:46 - Роль Инженера Данных в ML проектах
57:46 - Отличия от классических решений
58:35 - Challange 1: Объем данных
59:17 - Challenge 2: Privacy
59:42 - Challenge 3: Качество данных для ML
01:01:00 - Challenge 4: Стоимость Решения
01:01:37 - Идеи по развитию в карьере
01:03:08 - Моя зарплата на рынке
01:04:28 - Super Power vs Grow Ideas
01:06:16 - Задача менеджера
01:07:26 - Персональное развитие (personal development)
01:08:04 - Развитие карьеры
01:10:45 - Концовка
источник
2020 October 26
Инжиниринг Данных
Все привет, Роман организовал новый вебинар для #datalearn. Не пропустите:

Друзья, приветствую вас всех!
Вам известно, что мы закончили 3-й модуль и Дима сказал, что в принципе с этими знаниями вы можете искать работу.
Так вот у вас наверняка вопрос, а что а как?

Специально, для вас любимых, мы пригласили эксперта Анастасию Дробышеву - консультант по рынку труда и карьерному развитию.

Да-да родные, можете отблагодарить лайками и подписками :slightly_smiling_face:

Если по делу, то движуха 27.10.2020 в 20:00 по МСК
Тема вебинара: «Поиск работы для аналитических специальностей»
1. Стратегии поиска
2. Инструменты и каналы поиска. Россия VS международный рынок труда
3. Резюме, профиль LinkedIn и GitHub
4. Отклики и сопроводительные письма
5. Интервью, обсуждение оффера
6. Что там у FAANGов?
7. Эмоциональный интеллект: кому он нужен?!?

О спикере:
Анастасия Дробышева – консультант по рынку труда и карьерному развитию, за 10 лет провела более 2000 консультаций в рамках своего проекта Job2Joy. Специализируется на отраслях IT/ digital, internet & e-commerce. Международно сертифицированный резюме райтер (Certified Professional Résumé Writer, CPRW). В данный момент является приглашенным консультантом в американской компании RiseSmart, лидере корпоративного карьерного консалтинга и аутплейсмента персонала, резиденте Кремниевой Долины.

Как всегда мои рекомендации будут: заварить чаек, включить наш ютубчик и смотреть прямой эфир, а ну и конечно подписывайтесь и ставьте колокольчик.
Если по делу, то движуха 27.10.2020 в 20:00 по МСК
Тема вебинара: «Поиск работы для аналитических специальностей»
1. Стратегии поиска
2. Инструменты и каналы поиска. Россия VS международный рынок труда
3. Резюме, профиль LinkedIn и GitHub
4. Отклики и сопроводительные письма
5. Интервью, обсуждение оффера
6. Что там у FAANGов?
7. Эмоциональный интеллект: кому он нужен?!?

О спикере:
Анастасия Дробышева – консультант по рынку труда и карьерному развитию, за 10 лет провела более 2000 консультаций в рамках своего проекта Job2Joy. Специализируется на отраслях IT/ digital, internet & e-commerce. Международно сертифицированный резюме райтер (Certified Professional Résumé Writer, CPRW). В данный момент является приглашенным консультантом в американской компании RiseSmart, лидере корпоративного карьерного консалтинга и аутплейсмента персонала, резиденте Кремниевой Долины.

Как всегда мои рекомендации будут: заварить чаек, включить наш ютубчик и смотреть прямой эфир, а ну и конечно подписывайтесь и ставьте колокольчик.

Ссылка вот:
https://youtu.be/hp7i3TuJCyo
YouTube
ПОИСК РАБОТЫ ДЛЯ АНАЛИТИЧЕСКИХ СПЕЦИАЛЬНОСТЕЙ / АНАСТАСИЯ ДРОБЫШЕВА
Анастасия Дробышева – консультант по рынку труда и карьерному развитию, за 10 лет провела более 2000 консультаций в рамках своего проекта Job2Joy. Специализируется на отраслях IT/ digital, internet & e-commerce. Международно сертифицированный резюме райтер (Certified Professional Résumé Writer, CPRW). В данный момент является приглашенным консультантом в американской компании RiseSmart, лидере корпоративного карьерного консалтинга и аутплейсмента персонала, резиденте Кремниевой Долины.

🔔 ЗА ЛУЧШИЙ ВОПРОС ИЛИ ИСТОРИЮ В КОММЕНТАРИЯХ ЛИЧНАЯ КОНСУЛЬТАЦИЯ ОТ АНАСТАСИИ В ПОДАРОК!

Крутой доклад, а еще жаришка в ответах на ваши вопросы, Настя отвечала на вопросы 40 минут! Поговорили о выгорании при поиске работы, ценностях DataLearn, о soft skills и mind skills специалиста по аналитике.

Также Анастасия Дробышева пообещала подготовить курс для вас любимых. Где подробно рассмотрит каждый этап поиска поделиться фишками и свои опытом.

🧾 Ресурсы, упомянутые в презентации:
🔗 Статья про LinkedIn: https://journal.tinkoff.ru/linkedin/…
источник
2020 October 27
Инжиниринг Данных
После 3го модуля можно найти работу, 100% доказано! Осталось только сделать резюме и выйти на рынок, как раз прямо сейчас Рома начал наш следующий вебинар с Анастасией!

Анастасия Дробышева – консультант по рынку труда и карьерному развитию, за 10 лет провела более 2000 консультаций в рамках своего проекта Job2Joy. Специализируется на отраслях IT/ digital, internet & e-commerce. Международно сертифицированный резюме райтер (Certified Professional Résumé Writer, CPRW). В данный момент является приглашенным консультантом в американской компании RiseSmart, лидере корпоративного карьерного консалтинга и аутплейсмента персонала, резиденте Кремниевой Долины.

https://youtu.be/hp7i3TuJCyo
источник
Инжиниринг Данных
Всем привет!

На Amazon уже доступна наша новая книга по Azure Data Factory.

21 мая, я написал сюда предложение о написании книги про Azure Data Factory. Предложил вам попробовать свои силы в написании книги. И несколько героев реально вписались и доделали проект доконца. Было не просто, но ребята старались, и теперь у них есть отличное дополнение к их профессиональной карьере!
источник