Size: a a a

Инжиниринг Данных

2021 February 02
Инжиниринг Данных
Еще один python инструмент для ETL и pipelines, выпустил обновление под кодовым названием "The Edge of Glory.” https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
источник
Инжиниринг Данных
Dropbox рассказывает почему выбрали Apache Superset. Я то знаю наперед, у них много программистов, которые могут внедрять такое решение, модифицировать и поддерживать его. А то скучно будет.  В статье также сравнительная таблица нескольких BI инструментов и критерии отбора, можно использовать:
-Superset
-Redash
-Mode
-Periscope

Я бы купил табло всем и не парился🤪 Но ребята любят Open Source
источник
Инжиниринг Данных
Прислали копию книг Azure Data Factory. 4 автора включая меня это наши ребята и один из technical reviewer, тоже наш человек. Кстати Павел ещё курирует модуль 4 про ETL и сейчас готовит видео по Pentaho DI, где покажет как делать базовые вещи в ETL/DW.
источник
Инжиниринг Данных
Каждый день я изучаю databricks и прохожу тренинги по нему. И по-моему не зря. Он получил еще млрд инвестиций от Salesforce, AWS и других. Так как я изучаю продукт в Azure, то там вообще всех запутали. Вы можете использовать Synapse Analytics (DW) от Azure, и к нему опционально использовать databricks или писать запросы к Delta таблицам в databricks. А можете использовать только databricks и строить Delta Lake. Но в Azure про это совсем не четко написано, как будто их задача, чтобы вы использовали Synapse + Databricks, да и только.

Сам продукт состоит из 2х основных компонентов:
- worspace - это notebooks, где мы пишем код, трансформации
- sql Analytics - это BI слой на основе Redash, который купили ранее

Пока больше вопросов, чем ответов. Я понимаю как сделать все решение на Synapse Analytics (DW) + Power BI, так как это классика. А еще бы легче на Snowflake. А вот, если я хочу только databricks, то уже есть вопросы, про ETL, BI и тп. Будем разбираться. Хотелось бы найти людей, кто прошел этот путь.
источник
2021 February 03
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Google cloud пока не оседлал волну и потерял 5 лярдов в 2020, но нагонит ещё.
источник
Инжиниринг Данных
#datalearn именно за такими success stories я охочусь и мы все в сообществе data learn создаем их каждый день своим трудом и целеустремленностью. Мне нравиться доказывать, что обходными путями можно добиться куда больше, чем просто в лоб как все. Что не надо платить кучу денег за посредственные курсы, когда все бесплатно. И главное, что когда мы помогаем кому-то, то этот человек будет так же помогать другим, своим пример мы можем немножко менять судьбы людей, это дает сил🚀
источник
Инжиниринг Данных
Интересно как повлияет уход Безоса с поста CEO на компанию и на стоимость акций Амазон, которые выросли в 5 раз за 5 лет.

Вовремя я ушел, без Безоса Амазон, не Амазон для меня.
источник
Инжиниринг Данных
Анастасия Риццо выложила новое видео, очень классно все объяснила, поймет даже человек без опыта.
источник
Инжиниринг Данных
Делать игры самим оказалось не по зубам для Google Stadia. Они закрыли все студии,  что на руку Xbox, PS и другим.
источник
2021 February 04
Инжиниринг Данных
Отличный message про сертификацию и доп курсы. Если нет сертификата это не так уж и плохо, на то могут быть причины. Но если есть, то это показывает ваш интерес к теме изучения предмета. Я всегда на собеседования в Амазон спрашивал про онлайн курсы типа Coursera, edx. Мне не важны были сертификации, но сам процесс изучения предмета говорит о многом.

Возвращаясь к нашей реальности, если у нас уже все ок с работой и опытом и мы не в консалтинге, где нужен прув экзамена, то и фиг с ним. А вот джунам, которые выдают себя за мидл😜, сертификат добавит веса, будет легче придерживаться своей красивой истории про большой опыт.
источник
Инжиниринг Данных
Порция постов для оголодавших гиков и прочих причастных к Big Data, ML и Python разработке:
Speaking of Spark Mllib
Modern Big Data architectures
Testing and validation in ML

Если вам интересно то и то, то вы можете подписаться на канал

PS автор поста закинул денежку vsevsevmeste.ru🤗
источник
Инжиниринг Данных
Вот и подошла к концу самая эпичная битва зимы!

Финал чемпионата для дата-сайентистов Alfa Battle 2.0.
Присоединяйтесь на утренний кофе с победителями и всеми причастными к громкому событию в it-индустрии 💥

Мы собрали для вас содержательный и яркий видеоподкаст:
- Победители поведали секреты эффективного подхода к решению задач чемпионата
- Организаторы поделились инсайтами “Как создавать задачи со звездочками”
- Жюри выбрало лучшие открытые решения
- Раскрыли карты “Как попасть на стажировку в компании Альфа-Групп”

📍Ссылка на трансляцию -  https://www.youtube.com/watch?v=A7ha6mRUnhc

Заваривайте свой любимый напиток и готовьтесь погрузиться в самое технологичное утро февраля ☕️

PS тоже поддержали vsevsevmeste.ru😋
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2021 February 05
Инжиниринг Данных
Хорошо нарисовали, что во что можно конвертировать в power query
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Из историй про Power BI. Опять же, может кто подскажет. Задача была простая - использовать Power BI API, чтобы выгружать PDF и обновлять дашборды. Результат сохранять в Shared Folder.  Этим больше занимался мой коллега.

Тема интеграции ETL и BI моя любимая! Так как нельзя доверять расписанию BI, так как оно сработает независимо от того, ETL готов или нет. Всегда одни и те же проблема. В 9 утра отчеты уже обновились, все ковыряются в данных и к обеду находят, что данные кривые - оказывается ETL упал ночью😵  Я настраивал так для Microstrategy и SAP BusinessObjects. И даже в tableau делал через Pentaho.

В Tableau я всегда использовал tabcmd (клиент для CLI). Мы можешь его установить на машину с ETL и дергать Tableau Server, как только ETL готов, если что-то сломалось, просто получим уведомление по email и в messenger.  Есть еще библиотека для Python, делает тоже самое. В общем очень элегантно и работает безотказно. Можно еще добавить для Windows Febooti CLI email клиент, он будет отправлять отчеты, а можно и в AWS S3 складывать или AWS SES, чтобы отправлял приложение. Много сценариев. Мой пример для Matillion+Redshift;

А вот если гуглить похожий сценарий по Power BI, получается не так все просто. На словах просто, на деле нет. У нас это работает через Power BI Embedded. Там цены в месяц за среднюю машину под 3к$. К ней можно через API подключиться и она может все сделать, но embedded дорогой, потому что он для приложений, где может быть много пользователей, например личный кабинет. То есть это как из пушки по воробьям. С помощью Azure Data Factory мы запускаем весь pipeline, берем credentials из Azure Key Vault, через API Call аунтифицируемся, обновляем модель и скачиваем PDF. Там у товарища компонентов 10-15 pipeline. И куча сложностей с аунтификацией, поэтому он через Embedded зашел.

Может есть более простое решение?
источник
Инжиниринг Данных
Про Snowflake я писал не раз и даже общался с компаниями в Москве, кто хочет внедрять технологию. Приходили и рекрутеры, кто хочет специалистов по Snowflake. Так что наш следующий вебинар очень в тему. И он в тему модуля 6 #datalearn про современные аналитические DW. Я бы даже отнес его к Lakehouse.

https://youtu.be/XJa3gGWidg0https://youtu.be/XJa3gGWidg0

Из нашего slack:

Мальчишки, девчонки, а также их родители, про Snowflake историю в понедельник 8 февраля в 20:00 по мск послушать не хотите ли?  Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить! Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить!

Как всегда всем быть, те кто смотрит лекции будущие Олимпийские чемпионы в дата мире
😊
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник  не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре

И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
источник