Size: a a a

Инжиниринг Данных

2019 November 26
Инжиниринг Данных
источник
2019 November 27
Инжиниринг Данных
AWS опубликовала новость под заголовком "Как предоставить возможность работать с ML для каждого аналитика и разработчика", другими словами, все вендоры упрощают ML/Data Science, AI. Примерно так же как и алгоритмы сортировки в Computer Science, основы программирования. Но сейчас мы не задумываемся, какую сортировку выбрать, используем готовый пакет. Так же и с BI, мы просто перетягиваем нужные объекты и получаем график. Так же и с Hadoop, в облачной среде, пару кликов, и у нас Hadoop с SQL интерфейсом. Другой вопрос, что нужно понимать способы применения. На рынке ценятся специалисты, кто знает, какую модель для чего нужно применять, а "руки" всегда найдутся.
источник
Инжиниринг Данных
Попался классный курс по Data Engineering! Нет hardcore по всяким Hadoop, Kafka. По содержанию интересный, всего по чуть-чуть, подойдет всем кто работает с данными BI, ETL, DW. Если вы в начале пути, или делаете только BI, то стоит посмотреть!
источник
Инжиниринг Данных
Вот так вот выглядит самое современное хранилище данных. * На месте Matillion может быть любой инструмент, обычно ELT.
источник
Инжиниринг Данных
Один из читателей @Shtock 😝  заметил, что Matillion не очень хорошее решение, мягко говоря. Я согласен, у него есть свои достатки и преимущества. По сути можно любим решением решить задачу, если хорошо владеть им. Например, можно взять Excel и построить отличный дашборд, который будет решать бизнес задачи, хотя многи скажут, что excel плохой BI инструмент. Поэтому совершенно не важно какое решение мы используем, его главная задача приносить пользу бизнесу. Я, например, использовал Matillion на последних 2 проектах, потому что, я знаю как в нем сделать быстро то, чего хочет бизнес, хотя я мог бы использовать Apache Airflow или AWS Glue. Поэтому критерий "хороший/плохой" очень относительный.

Зато оказалось, что Александр, отлично разбирается в облачных хранилищах данных и поделился
1) Своей презентацией Cloud DW deep Dive. "в презентаци идёт попытка доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.

Также рассказано почему модели данных одного и того же хранилища должны быть разными между Redshift, Big Query и Snowflake и как эффективно использовать возможности данных СУБД.
"
2) Записью выступления на митапе Cloud DW and data models optimization.  

Если есть чего интресного из по теме канала присылайте, расшарим!
источник
2019 November 28
Инжиниринг Данных
источник
Инжиниринг Данных
Data Visualization Fashion:)
источник
Инжиниринг Данных
источник
2019 November 29
Инжиниринг Данных
ebook - 20 python libraries that you don't use but should
источник
Инжиниринг Данных
Еще одна программа для Data Engineer, уже на 5 месяцев, включает в себя Cloud DW, Spark, NoSQL.
источник
Инжиниринг Данных
Пример использование Embedded Power BI на государственном сайте Канадского правительства который показывает сколько и какого типа машин было зарегистрировано. Отчет опубликован 19 ноября, но данные до 2018 года. Да и сам дашборд чего-то совсем скучный.
источник
2019 November 30
Инжиниринг Данных
p-value на одной картинке
источник
Инжиниринг Данных
Руководитель Data Science Airbnb выступал с докладом в прошлом году  - Scaling Data Science. Может быть интересно.
источник
2019 December 01
Инжиниринг Данных
Академия аналитики данных, визуализации и тп появляются как грибы. Вот ещё одна попалась. Там можно бесплатно скачать storytelling guide.
источник
2019 December 02
Инжиниринг Данных
источник
Инжиниринг Данных
Если вы хотите учить Data Science, ML, то самое важное это понимать как данные, алгоритмы и статистика могу приносить пользу. Для этого нужно знать не алгоритмы, а бизнес кейсы. Вот 3 примеры от Airbnb:
1. Эксперементы
2. Как NPS (рейтинг опроса) предсказывает букирование
3. Определение предпочтений хоста
источник
Инжиниринг Данных
Из Аэропорта Сиэтл
источник
Инжиниринг Данных
Если Tableau лидер в области визуализации данных и self-service аналитики, то Alteryx - это лидер в области self-service подготовки данных (такой вот настольный ETL инструмент для бизнес пользователя с возможность сервера). Попался хороший блог пост про сравнение Alteryx и Tableau Prep (утилита Табло для подготовки данных).
источник
2019 December 03
Инжиниринг Данных
Комментарии излишни😣
источник
Инжиниринг Данных
источник