Size: a a a

Инжиниринг Данных

2021 July 04
Инжиниринг Данных
Немного поработал с фреймворком для написания веб-приложений на Python под названием Streamlit - и описал пример такого приложения в отдельной статейке:

https://polarpersonal.medium.com/building-data-visualization-apps-with-streamlit-and-databricks-sql-54e51bb6b0a8
источник
2021 July 05
Инжиниринг Данных
У AWS Glue (ETL от AWS на базе Spark) появился продукт Data Brew, с помощью которого можно чистить данные и изучать их природу. Для Data scientist должно быть очень удобно при работе с большим объемом.
источник
Инжиниринг Данных
Тут назрел вопрос, с удаленной работой, можно теперь “теоретически” работать full time на несколько работах. Мой хороший товарищ в Канаде😜, успешно это делает, причем у него не начальные позиции, а senior с зарплатой выше среднего. Я, например, мог бы не увольняться из Amazon и работь на Microsoft. Информация о моих общих доходах и о том, что я делаю конфиденциальна для моего работодателя. Но я перегорел и хотел просто больше времени отдыхать. Возможно в будущем я вернусь к этой затеи. Мне интересно про рынок в РФ, реально ли там удаленно работать на 2 фулл тайм работе? (конечно, если вы опытный специалист). Вариант про фул тайм + подработка я не рассматриваю, это всегда было норм.
источник
Инжиниринг Данных
На канале мы обсуждали про инструмент для ETL, которые делает T с помощью кода - DBT tool. Да ещё и опен сорс. 2 свежие статьи:
Julien Kervizic: Leveraging DBT as a Data Modeling tool
DBT: dbt + Materialize: Streaming to a dbt project near you
источник
Инжиниринг Данных
"Management is the opportunity to help people become better people. Practiced that way, it’s a magnificent profession." Clayton Christensen
источник
Инжиниринг Данных
Облачные вычисления дают нам много преимущест, и аналитика не исключение. Мы можем сфокусироваться на решение бизнес задач и не тратить время на создание инфраструктуры. В зависимости от задачи и доступных ресурсов мы можем использвать IaaS, PaaS или SaaS. Пару кликов и у вас есть хранилище данных, куда вы можете загружать данные и сразу их визуализировать практически в реальном времени. Если кратко, то возможности безграничны и зависят лишь от вашей фантазии и кошелька.  

В этом видео вы узнаете про:
📌   Основные компоненты аналитики
📌   Роли и специалисты
📌   AWS решения для аналитики
📌   Azure  решения для аналитики
📌   GCP  решения для аналитики

https://youtu.be/E4kZI4-S2SY
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 5-7 АНАЛИТИКА В ОБЛАКЕ
Облачные вычисления дают нам много преимущест, и аналитика не исключение. Мы можем сфокусироваться на решение бизнес задач и не тратить время на создание инфраструктуры. В зависимости от задачи и доступных ресурсов мы можем использвать IaaS, PaaS или SaaS. Пару кликов и у вас есть хранилище данных, куда вы можете загружать данные и сразу их визуализировать практически в реальном времени. Если кратко, то возможности безграничны и зависят лишь от вашей фантизии и кошелька.

В этом видео вы узнаете про:
📌   Основные компоненты аналитики
📌   Роли и специалисты
📌   AWS Schema Conversion Tool
📌   AWS Database Migration Service
📌   Azure Migration Services

В 5 модуле мы узнаем про облачные вычисления, или просто cloud computing. Мы начнем с основ, и поговорим и главных вендорах и их решениях. Я расскажу про свой опыт с облачными решениями и постараюсь вас научить их использовать и дать достаточно знаний, для того, чтобы вы могли понимать, что это такое, и как это используется, а так же применять в работе.

📌   Основные…
источник
2021 July 06
Инжиниринг Данных
источник
Инжиниринг Данных
Как вы считаете - сертификация помогает легче найти работу и получить зарплату выше или она бесполезна? (Можно несколько вариантов)
Анонимный опрос
18%
Однозначно помогает💯
8%
Не помогает, пустая трата время💨
33%
Не помогает с работой, но зато помогает систематизировать знания😍
1%
Является обязательным требование для моей позиции😵‍💫
17%
Помогает узнать best practices🧐
6%
Я могу себе написать в резюме сертификаты, все равно не проверят подлинность🤫
16%
Лучше заплатить вендору за сертификацию, чем псевдо школе за псевдознания и цветной сертификат pdf😜
Проголосовало: 1115
источник
Инжиниринг Данных
Как-то давно, после внедрения Matillion ETL, мне предложили написать use case про наше решение в Amazon Subsidiary - Migrates to the cloud and increases ETL literacy within the company by 150%. Ну написал и забыл.

Оказывается, есть много венчурных компаний, которые исследуюь рынок дата и опрашивают пользователей инструментов, чтобы лучше понять инвестировать или нет. Рынок ETL не исключение, я уже много раз рассказывал про разные инструменты, их +\- и тд, даже если не работал с инструментов особо (пример это Fivetran). Одна консультация стоит 350US$ в час. И находят они меня через этот use case. И они где-то 1-2 раза в месяц. Можно их считать спонсором телеграмм канала, на котором нет рекламы за 2000 рублей😝

Теперь про фирмы, которые вы можете посмотреть и попробовать вписаться:
https://thirdbridge.com/
https://www.alphasights.com/
Есть и много других.
источник
Инжиниринг Данных
источник
2021 July 07
Инжиниринг Данных
(Перезалил видео)

AWS, Azure и GCP предлагают нам сертификацию на любой вкус и цвет. Есть для начинающих и продвинутых. Помимо основной сертификации есть еще специализация в Аналитике, сетях, безопасности и тд.

В этом видео вы узнаете про:
📌   Сертификации и специализации в AWS, Azure, GCP
📌   Материалы подготовки
📌   Нужна ли сертификация или нет?
📌   Обзор облачных профессий на HeadHunter и Indeed

https://youtu.be/0-sbxggc9KQ
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 5-9 ПРОФЕССИИ И СЕРТИФИКАЦИЯ В ОБЛАЧНЫХ ВЫЧИСЛЕНИЯХ
AWS, Azure и GCP предлагают нам сертификацию на любой вкус и цвет. Есть для начинающих и продвинутых. Помимо основной сертификации есть еще специализация в Аналитики, сетях, безопасности и тд.

В этом видео вы узнаете про:
📌   Сертификации и специализации в AWS, Azure, GCP
📌   Материалы подготовки
📌   Нужна ли сертификация или нет?
📌   Обзор облачных профессий на HeadHunter и Indeed

В 5 модуле мы узнаем про облачные вычисления, или просто cloud computing. Мы начнем с основ, и поговорим и главных вендорах и их решениях. Я расскажу про свой опыт с облачными решениями и постараюсь вас научить их использовать и дать достаточно знаний, для того, чтобы вы могли понимать, что это такое, и как это используется, а так же применять в работе.

📌   Основные вендоры облачных решений AWS, Microsoft Azure и Google Cloud
📌   Типы облачных сервисов и их примеры (Cloud Service Models)
📌   Модели облачных решений (Cloud Model Types)
📌   Безопасность облачных решений и Shared Responsibility Model
📌   Научитесь создавать виртуальную…
источник
Инжиниринг Данных
Все хотят строить модели, но не все хотят ковыряться в данных, чистить их, интегрировать и консолидировать. https://research.google/pubs/pub49953/
источник
Инжиниринг Данных
Крупнейшие облачные проекты в штатах:
1) Amazon, Microsoft and Google Pursue $1 Billion Cloud Deal With Boeing (пока не понятно, кто возьмет, возможно будет multicloud)
2) Pentagon Cancels Multibillion-Dollar Cloud Contract With Microsoft  - изначально Microsoft выиграл контракт на Joint Enterprise Defense Infrastructure (JEDI), но Amazon подал в суд, что сделка была непрозрачная, и теперь пентагон решил тоже разделить контракт на Microsoft и Amazon. (А google совсем мимо). Акции Амазон выросли на этой волне. Теперь ждем когда Безос полетит в космос на своей ракете в конце июля

Источник The Information
источник
Инжиниринг Данных
В продолжение крупных сделок - оказывается у главного конкурента Boeing - Airbus, инфраструктура на Google Cloud.
источник
2021 July 08
Инжиниринг Данных
Узнал новое выражение - "no over the fence".
Today’s comic is about that age old problem in games dev when we build fences instead of bridges and silos instead of pastures. Throwing things over that fence is something we want to work hard to move away from as a way of working. We want to foster collaboration at every stage of the game, and enable everyone to do their best creative work, as a team.

PS мне кажется я так делаю разработчикам Power BI, типа, вот вам connection string, enjoy
источник
Инжиниринг Данных
А это про data literacy в картинках
источник
Инжиниринг Данных
С каким типом данных вы работаете чаще всего, когда извлекаете их для аналитики?
Анонимный опрос
29%
CSV, TXT, TSV и другие delimited файлы
16%
Excel
32%
Реляционные Базы данных (OLTP)
3%
NoSQL базы данных
8%
JSON, XML и другие semi structure данные
8%
Parquet, ORC - файлы для аналитики
3%
Другой (напишите в комментах)
Проголосовало: 773
источник
Инжиниринг Данных
А вы еще не прошли workshop по Python для AWS? Это будет модуль 5.10. Я писал недавно, что Sergii Volodarskyi сделал для вас офигенную инструкцию перевод на русском. Там очень интерсные лабы с использованием сервисов AWS. В другом месте за такой подробный воркшоп по Python с элементами ML (машинный перевод) с вас бы взяли тысяч 15-20 рублей как минимум, а у нас бесплатно. Я сам раньше не использовал облачную IDE Cloud9 и не работал с сервисами AWS Translate. Особенно мне интересно разобраться как работает Logging и есть бонус лаба с DynamoDB (NoSQL).

Вообще интересно получается, по хорошему, до модуля 7 (про Spark) нам вообще не нужен Python, с помощью SQL, баз данных и приложений drag and drop (ETL, BI) + облачных вычислений мы можем решить 90% кейсов для аналитики. Я подумал про аналогию коробки автомат в машине. Можно же на автомете ейздить и не париться, а можно быть hardcore и на механики в пробке стоять. Python конечно дает нам огромное преимущество для data engineering и data science сложно представить, но в целом для DE, BI и хранилищ данных с элементами облачного Hadoop (AWS EMR или HDInsight) мы можем обойтись тем же SQL (hive).
источник
Инжиниринг Данных
Делаю лабы по Python и очень доволен! А потом запишу модуль 5.10 и можно уже начинать 6 про аналитические DW.
источник
Инжиниринг Данных
Может показаться, что если Amazon (или любой другой крупный бизнес будет строить склад у вас в городе), то город расцветет, появится куча рабочих мест, локал бизнес пойдет вверх, и все будут счастливы. Каждый городишка мечтает получить склад амазон и предлагает налоговые льготы, скидки и инцентивы.

А вот обратная сторона монеты - When Amazon Comes to Town
Residents of Milford, Mass., didn’t think twice when the internet retail giant opened a warehouse in town. But then trucks carrying Amazon cargo began choking its roads with traffic, making late night rackets and damaging a local cemetery.

Вот так и думали люди в маленьком городе по Бостоном когда в 2016 году Амазон решил у них построить склад. Теперь город наводнем грузовиками доставки "сompete for space on Milford’s aging roads with more than a hundred semitrucks a day hauling Amazon cargo. The trucks regularly cause property damage and noise complaints as they rumble through narrow intersections and down one-way residential streets" (а это не собственность Амазон, а контрактеры, которым вообще пофиг на все и нет никакой ответственности), окрестные улицы засыпаны мусором "left nearby roads littered with trash and bottles of urine" (а как же по другому? Есть аналитики, которые любят посещять Starbuck 3 раза в день и дискутировать на тему, что лучше R или Python, и как лучше проложить маршрут,  сколько грузов нужно доставить в день и другие data insights и business recomendations (согласно описанию role guideline). Про время на Starbucks , хотя нет, у водителей нет денег на кофе от русалки, они пьют, что-то подешевле или вообще берут термос с ратсворимым кофе. Так вот аналитики не сильно закладывают время на покушать, попить и другие естественные нужды и как результат улицы наводнили bottles of urine. В общем я не завидую водителям Амазон и маленькому городку. Кстати, место под склад, тоже выбрали аналитики))
источник