Size: a a a

Инжиниринг Данных

2019 August 25
Инжиниринг Данных
Интересная статья про сравнение аналитики и статистики как отдельных дисциплин.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Хороший курс по основе работе с данными - трансформации и визуализация.
источник
2019 August 26
Инжиниринг Данных
Я нираз писал про Snowflake. Вот и книжка почти готова. На вопрос зачем столько книг писать? Ответ простой, написать книгу - это всего лишь возможность, которая создаст еще больше возможностей. Особенно если учесть, что Rock Your Data нацелена на облачную аналитику, то такие книги лишь укрепят авторитет компании для партнеров и клиентов.
источник
Инжиниринг Данных
Если кто в Ванкувере в эти дни - Велком! Осталось разобраться как работает Azure, и подготовиться к экзамену DP-200 Data Platform Engineer ну и все материалы подготовить. Если у кого чего есть, поделитесь. Я нашел интересный курс на Linux Academy - Azure D200 Certification Prep.
источник
2019 August 29
Инжиниринг Данных
Команды curl  вам пригодиться! Если вы работаете с данными и не знаете, что это такое, то в этом посте подробно описано с примерами и упражнениями. https://jvns.ca/blog/2019/08/27/curl-exercises/
источник
Инжиниринг Данных
источник
2019 August 30
Инжиниринг Данных
Слышали о CAP теореме?  В CAP говорится, что в распределенной системе возможно выбрать только 2 из 3-х свойств:

C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.

Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
источник
2019 September 02
Инжиниринг Данных
источник
2019 September 03
Инжиниринг Данных
Введение в ML для Google Cloud Platform, 40 минут.
источник
Инжиниринг Данных
А вот информацию по data science в   Big Query с использованием SQL.
источник
Инжиниринг Данных
источник
2019 September 04
Инжиниринг Данных
Мы слышали много раз про Data Lake, но всегда был вопрос как же не превратить это все в болото данных. Успех был в правильной организации метаданных. Теперь Data Lake эволюционировали в Delta Lake, то есть действительно стали на шаг ближе к традиционным хранилищам данных. Более подробно в статье от databricks.
источник
Инжиниринг Данных
А вы бы смогли объяснить бабушке, что такое SQL и NoSQL? Посмотрите как это делается в этой статье.  

Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
источник
2019 September 06
Инжиниринг Данных
Данные помогает делать бизнес (деньги) эффективней, но какой ценой? Все знают про Amazon Prime - бесплатная доставка за 2 дня, есть и другие опции как Prime Now, Prime Air и другие. Мы можем использовать данные, чтобы рассчитать модель доставки, и на компьютере все будет сходиться. Конечно все факты сложно учесть. Wallmart, например, пытается сделать доставку за 1 день, вместо 2х. В этой статье описаны случаи, когда из-за жесткого графика доставки страдают люди. По сути это обратная сторона монеты эффективной бизнес модели основанной на данных.
источник
2019 September 07
Инжиниринг Данных
источник
Инжиниринг Данных
Если уж так случилось, что вы бросились изучать Machine Learning, то шаг номер один это математика, а если сразу математика и питон, то это замечательно, нашел классный курс для вас (бесплатный)! Платный будет только если я сделаю😝 А вот от него лабы, можете посмотреть.
источник
Инжиниринг Данных
https://weworkremotely.com вот такой сайт попался
источник
2019 September 08
Инжиниринг Данных
Хорошая идея - нам не нужно ещё больше данных, нам нужны хорошие вопросы. Кто сможет задать хороший вопрос? Обычно тот, кто разбирается в бизнес процессах. Поэтому технарям сложно продавать идеи по внедрению ПО или разных приложений для аналитики, если они не очень хорошо разбираются как работает бизнес.
источник
Инжиниринг Данных
Пример создания дашборда в реальном времени с помощью Azure Cosmos DB и PowerBI
источник