Size: a a a

Инжиниринг Данных

2020 April 27
Инжиниринг Данных
Я как то писал про dbt, это opensource продукт, которые позволяет создавать ELT (SQL трансформации) и оркестрировать ими. Они получили 13 млн инвестиций на прошлой недели, будут дальше разрабатывать и улучшать продукт. Если вы ищете простое и бесплатное решение для вашего проекта, dbt может подойти.
источник
2020 April 28
Инжиниринг Данных
У AWS главный продукт для загрузки данных (ETL/ELT) - Glue. До него был просто data pipeline.

Glue это managed services (SaaS), это значит, что это решение хостится в AWS, и на не надо его устанавливать и настраивать. Для сравнения виртуальная машина с ОС это IaaS, а Redshift это PaaS.

Основной движок Glue это Spark. То есть мы может описывать трансформации, использую Spark (pySpark и SparkSQL).  

Раньше это решение было только Batch (то есть выполняем загрузку по расписанию), а теперь появилась опция для стриминга.
источник
Инжиниринг Данных
Полезный материал https://habr.com/ru/post/499394/
источник
Инжиниринг Данных
Про работу overtime
источник
Инжиниринг Данных
А вот описание процесса Data Engineering собеседование в Амазон https://www.quora.com/How-is-the-Data-Engineer-interview-process-at-amazon
источник
2020 April 29
Инжиниринг Данных
Упражнение из книги Think Python, пытался понять эту теорему, и увидел страничку из рассказа.
источник
Инжиниринг Данных
Насколько все серьезно в вашем городе? У нас (в Канаде) уже послабления собираются вводить, люди послушно отсиделись дома, пошло на спад.
источник
Инжиниринг Данных
Меня попросили расшарить, может кому будет интересно:

«4 мая ребята из сообщества Data Engineering проведут бесплатный митап: «Data Engineer or Die».
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет). Организаторы: Dodo Pizza и New Professions Lab.
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).

Ссылка на ивент: https://deordie.timepad.ru/event/1303716/».
источник
Инжиниринг Данных
У меня есть знакомый канадец, он делает стартап на Twilio API. Он ищет специалиста/разработчика, если у кого есть интерес и навыки, напишите ему письмо на brettleach@gmail.com возможно получится получить удаленную подработку. Пожалуйста, пишите, если вы действительно сможете программировать😉
источник
2020 April 30
Инжиниринг Данных
источник
Инжиниринг Данных
5 мая онлайн митап - data science for good by quantum black https://www.meetup.com/Singapore-Artificial-Intelligence-Meetup-Group/events/269474926/
источник
2020 May 01
Инжиниринг Данных
Tesla? AI? ML? и все это в одно видео https://www.youtube.com/watch?v=hx7BXih7zx8
источник
Инжиниринг Данных
И другое видео от Intel про закон Мура https://www.youtube.com/watch?v=8eT1jaHmlx8
источник
2020 May 02
Инжиниринг Данных
Друзья, для ресурса https://www.datalearn.ru нам нужно использовать реальные данные для заданий (структурированные и не структурированные данные). У меня есть на примете сайт, который я делал родственникам tradoonline.ru. Типичный пример онлайн магазина, маркетинговые каналы (Adwords, Metrica), данные трафика Google Analytics. То есть хороший пример, чтобы потренироваться, но не солидно.

Поэтому я подумал, что может, кто-то может предоставить датасеты? А может быть ваша компанию захочет принять участие в проекте? Вы даете нам обезличенные данные, мы на них тренируемся в условиях близких к реальным. Такое вот спонсорство (без денег), а данными и кейсами.

У нас уже больше 200 заявок на курс, и мы пытаемся привести впорядок механику сайта, и я заказа трипод на амазоне, скоро придет и я запишу первое видео.

Напомню цель ресурса, помочь вам не столько овладеть навыками data engineer (навыками овладеете, и поймете куда дальше копать, в зависимости от цели) а сколько понять, как можно помочь бизнесу разгрести данные, и извлечь из них ценность. Мы не будем нудеть про настройки хадупа, а постараемся по делу разложить по полочкам базовые вещи, ну и походу подправить.

Был кстати вопрос, почему не положить курс на степик? Степик это крутой ресурс, если вы хотите изучить конкретный предмет. Мы хотим решать комплексную задачу. Часть это задачи, куда пристроить новые навыки, как их монетизировать. Возможно получится создать экосистему и найти компании, которым нужны активные и умные ребята и девчата; Не найдем, тоже неплохо, создадим конкуренцию ребятам из Индии на международном рынке.

В общем, если интересно регистрируемся (это первая официальная реклама😜) .

Отдельное спасибо Роману Понамореву, которые взял на себя обязательства администратора ресурса, создал сайт и делает всякие интеграции по digital marketing.  Хотите внести вклад и добавить результат в портфолио?  Присоединяйтесь к data ambassadors (после регистрации можно добавиться в slack) и занимайтесь тем, чем вам нравиться;
источник
2020 May 03
Инжиниринг Данных
26 мая попробую провести вебинар с фокусом на Канаду (поэтому и картинки канадские).
источник
Инжиниринг Данных
Ресурсы для продукт менеджера
источник
2020 May 04
Инжиниринг Данных
Как лучше всего получить доступ к платным ресурсам? Записаться на бету. Например бета Matillion для Azure Synapse (SQL DW) дает доступ к Matillion (можно подтянуть cloud data integration), Azure Data Plarform (можно подтянуть Cloud DW, Databricks, и еще что-нибудь).
источник
Инжиниринг Данных
Для Rock Your Data Я хочу пост написать про Azure Synapse + ETL Matillion. Для меня ничего нового, теже кейсы что и AWS, но просто надо кнопки нажимать, а может быть кто-то хочет за меня кнопки понажимать? Я скажу, что нужно сделать, дам доступ, а вы уже пофигачите. Зато научитесь и может чего нового узнаете.

Из кейсов:
1)Distribution Styles для Azure DW (это во всех MPP системах)
2)Статистика для DW
3)Партиционирование
4)Polybase и внешние таблицы
5)Загрузка данных из озера данных
6)Отправка уведомлений в Slack
7)Загрузка данных из Google Analytics (или другой системы).

С меня теория и среда разработки. Пишите в личку, если интересно.
источник
Инжиниринг Данных
Когда для datalearn мы разберемся с базовыми вещами, хочется начать продвигаться в более серьезные вещи и приносить лучшие практики с запада. Например, хочется разобраться с kedro от quantum black. Сделать небольшой тренинг, в котором будет понятно зачем кедро и какие задачи решает, какие альтернативы существуют и тп. Туда же mlflow, DBT tool, и другие интересные инструменты. Самое главное это заложить фундамент базовых знаний по работе с данными, а потом нанизывать уже более сложные вещи. Кто-нибудь работал с кедро? Может хочет начать ковырять и потом выступить с докладом/презентацией?
источник
2020 May 05
Инжиниринг Данных
источник