Size: a a a

Инжиниринг Данных

2020 January 02
Инжиниринг Данных
Давно я не видел термин Business Intelligence в заголовках, а тут целая конференция Real BI в MIT Sloan где выступают профессора из Harward, MIT и даже космонавт NASA. Это здорово, что термин BI еще силен, или все новое это хорошо забытое старое))
источник
2020 January 03
Инжиниринг Данных
Вакансия Data Engineer. Можно работать из дома, наверно на западных клиентов. Но в целом по описанию это то, про что в канале много информации, облака, болшие данные. Если есть сертификация по AWS, Azure, GCP помогло бы. Даже грин карту делают, прям чудеса. Если у кого получиться, поделитесь историей успеха.

А вот еще вакансии:
Artificial Intelligence and Data Analytics Scientist
Big Data/Machine Learning Engineer
Machine Learning Developer (AWS)
Data Scientist / Machine Learning Engineer

Интересные компания предлагают вакансии, раньше не слышал про них, но мне можно не знать про них. Если кто чего знает, поделитесь информацией. В целом тренд хороший, вакансии очень современные и есть куда развиваться отечественному рынку специалистов, вместо того, что бы учить hardcore hadoop (псевдо  big data специализации), заниматься интерсными задачами и приносить пользу бизнесу.

И конечно Сбербанк, всегда в списке вакансий. Может скучновато, но самое то, чтобы набраться опыта и расти.
источник
Инжиниринг Данных
Tableau выпустили целый список бэйджей, и тренингов для каждой специализации, многие бесплатно. Если у вас нет опыта с Tableau, но вы работаете с BI, то вам бы отлично было бы подтянуть общие навыки по визуализации данных и созданию аналитических решений. А если вы уже круты с табло, то вам не помещает несколько бейджиков для вашего резюме
источник
2020 January 04
Инжиниринг Данных
Не видел раньше этого видео про Джобса и его подход к наему, а ваш менеджер "шарит" или просто умеет руководить людьми? https://youtu.be/rQKis2Cfpeo
источник
2020 January 05
Инжиниринг Данных
Подробная презентация про Power BI для начинающих
источник
Инжиниринг Данных
источник
2020 January 06
Инжиниринг Данных
Топ 3 тренда аналитики, согласно TDWI:
1) Визуализации не достаточно. В принципе ее всегда недостаточно. Нужны инсайты, рекомендации для бизнеса. Но идея в том, что на помощь приходит AI, или просто BI продукт вам может подсказать, или предоставить инструменты для удобного анализа данных на базе ML алгоритмов, встроенных в софт.  Например Microstrategy+DataRobot, AWS Quicksight имеет много ML примочек, Tableau помогает на эффективней работать с данными и тп.

2) Корпорации идут в облако. Несмотря на то, что AWS уже с 2006 года, все все еще собираются в облако, но уже всем понятно преимущества AWS,Azure, GCP и это уже является частью стратегии компании.

3) Embedded аналитика - то есть продукты (бизнес продукты и сервисы) будут иметь встроенные элементы аналитики, отчетности и визуализации. Например, Tableau мне рассказывала еще летом про упор на Embedded решения. То есть, строим дашборд, копируем embedded java script, прям как youtube ролик, и встраиваем во frontend. И дальше уже решаем вопросы про авторизацию, аунтефикацию, безопасность и перформанс. Если использовать Tableau, это будет дорого, но можно иopensource, как например D3js
источник
Инжиниринг Данных
Технологии не стоят на месте, новый кластер редшифта - RA3 инстнас (48 vCPUs, 384 GiB оперативной памяти, 64 TB стораджа для одной ноды, а может быть до 128) (раньше были проще DS2 and DC2), позволяет нам получить нереальную скорость и размер хранилища - до 8Pb. Но очень дорого.
источник
2020 January 07
Инжиниринг Данных
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1.
Я только немного разобрался с моей первой работой BI  разработчик в Cetelem, BNP Paribas. Подтянул SAP BusinessObjects и SQL. Я реально зубрил термины на англ, так как хотел найти работу за границей. И провалил свое первое собеседование в Ирландию, но это был хороший знак, значит BI разработчик может найти работу за границей. Я сразу стал искать работу в Италии))

Я познакомился на футболе с Костиком, мы 2м не очень были футболистами и тупили у ворот)) Он работал в отделе безопасности, и все, что делал, это только проверял клиентов, прогонял по базам, зп была не высокая, перспективы тоже так себе.

Как лучше всего выучить новый предмет? Это научить другого. Я рассказал Косте о преимуществах работы с BusinessIntelligence. Мы ему настроили SAP BO, SQL, скачали еще SQL Server и SAP BO сервер на домашний комп и он стал учиться. И заодно ему новое резюме придумали. Не помню всех подробностей, но в итоге он устроился в консалтинг по SAP. ЗП сразу увеличилась в 2,5 раза и ему все нравилось. Сейчас мы с ним уже не общаемся, но лет 5 назад у него все было хорошо, в благодарность он подарил наушники, которые досих пор работают с 2010 года. Смена работы и обучение заняло месяцев 6. Но я понял, что это работает.
источник
Инжиниринг Данных
Пример модульной архитектуры от AWS. Все основные элементы облачной аналитике в деле - AWS аккаунт, VPC (облачная сеть  вашего решения Virtual Private Cloud), Privat Subnet (закрытые ресурсы), Public Subnet (открытые ресурсы для пользователей), Bastion Host (linux инстанс, на который мы можем сделать SSH, чтобы уже получить доступ к Private Subnet), Nat Gateway (правила доступа во внешний мир для Private Subnet, Availability Zone (если что-то сломается в одной зоне, другая будет активная, так все серьезные решения в облаке строятся). Дополнительно есть Glue (aws etl), Cloud watch - логи и метрики, как чего у нас работает в облаке, S3 - сторадж (как dropbox почти), KMS - крипто ключ для шифрования данных,  IAM - для авторизации и аунтификации; https://aws.amazon.com/quickstart/architecture/amazon-redshift/
источник
Инжиниринг Данных
Если вы еще не пробовали DBT, то обязательно посмотрите, это такой open source ETL, где мы описываем трансформации с помощью SQL. Пример использования.
источник
Инжиниринг Данных
Все слышали про Dimensional Modelling? Я думаю многие, кто работал с данными. И это очень частый вопрос на собеседованиях, туда же относиться и про Star Schema vs Snowflake Schema, Slowly Change Dimensions,  Junk Dimensions и тп. Это все хорошо написано в учебнике по DW от Кимбала - Data Warehouse Toolkit. Меня как-то спросили в Тинькоф на собеседование про это штуки, и я как-то не уверенно ответил, особенно про вопрос, когда у нас несколько Fact Tables вместе, как их соединять. В общем не попал я к ним, да и ездить не удобно было. А вот Microsoft выписал все самое необходимое, что нужно и можно знать про Dimensional Modelling.

PS в Амазон, мы вообще не паримся про эти штуки=)
источник
Инжиниринг Данных
О как, вот они где business insights зарыты! Тут важно заметить, что нужны единомышленники, а то вот я буду кричать матом, что ETL сломался из-за моих же кривых рук, и никто не поймет меня
источник
Инжиниринг Данных
Интересная статья, которая может нам показать как визуализации данных может быть неправильна.
источник
2020 January 08
Инжиниринг Данных
"Я уже неделю на работу хожу и ни разу туда ещё не пришел" https://youtu.be/YYXbQjPAIdY
источник
Инжиниринг Данных
Классная статья про создание платформы данных (мы уже не используем термин хранилище данных). Заодно сравнение Snowflake и BigQuery
источник
Инжиниринг Данных
15 января будет вебинар про современные аналитические решения - Gaining Faster Insights From Faster Data. Будет много рекламы вендоров, но в целом будет понятно кудам смотрят западные компании.
источник
2020 January 09
Инжиниринг Данных
Пример решения - платформы данных на AWS с использованием ECS, Fargate, Apache Airflow (как orchestration), DBT для трансформаций SQL).
источник
Инжиниринг Данных
У меня есть задача масштабировать модель оттока для огромных данных на Sage Maker. Вот нашел интересный курс, пока прохожу;
источник
Инжиниринг Данных
источник