Size: a a a

Инжиниринг Данных

2021 August 27
Инжиниринг Данных
Оказывается самая топавая конференци по game dev - GDC. Следуя своим принципам проактивности, закинул запрос на выступление, шансов практически нет, так как там почти не бывает кейсов про аналитику, но личний challenge accepted.

Title: Building Modern Data Stack for Game Analytics
Overview: Nowadays, game development has become data-driven. Game studios over the world adopting analytics to inform decision making across all levels of industry. The core of game analytics and insights is telemetry data. The best strategy is to log data in the format that is closest to the defined in the code without any aggregation. This strategy insures the least possible bias operated on the data. Unfortunately,  this strategy also risks levitating the amount of data logged, streamed and stored.  It is vital to design and implement data platform that will handle tremendous volume of data, support mix workloads of use cases from Business Intelligence, Data Science and Business Users. Handle data privacy and establish security. During the talk we will cover the history of data platforms and review reference architectures and use cases for modern data stack and finish the presentation with our data stack modernization use case.
источник
2021 August 28
Инжиниринг Данных
источник
Инжиниринг Данных
Нашел прикольный сервис, который как уверяют создатели Free 4ever=)
Позволяет сделать мини профайл и собрать все важные ссылки в одном месте (можно и резюме ссылку и git и тп).
https://linktr.ee/dmitry.anoshin вот мой пример
источник
Инжиниринг Данных
Английская версия википедии про хранилище данных получила дополнение про ETL/ELT. https://en.wikipedia.org/wiki/Data_warehouse
источник
2021 August 29
Инжиниринг Данных
В 95 процентах аналитических решений используется хранилище данных. Давайте будем считать, что это аналитическое хранилище данных. Но что это такое? Какие они бывают? Как давно они на рынке? На эти вопросы и другие я отвечу в этом уроке.  

На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов.  Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.

Из модуля вы узнаете:
📌   История хранилищ данных
📌   База данных vs Хранилище данных
📌   Хранилище данных (DW) vs Платформа данных
📌   Характеристики хранилища данных
📌   Архитектура Shared Nothing vs Shared Everything
📌   Cloud vs On-premise Хранилища данных
📌   Облачная экономика на примере ETL jobs
📌   Open Source vs Commercial Хранилища данных
📌   Хранилища данных на базе существующей технологии (Postgres) или свои разработки
📌   Data warehouse as a Service или в ручную тюнить
📌   Современные и Legacy Хранилища данных
📌   OLTP vs OLAP
📌   ETL vs ELT
📌   Вендоры Хранилища данных на рынке (Gartner and Forrester)
📌   Сравнение скорости - benchmarking - TPC
📌   Benchmarking, отчет Gigaom и Fivetran по облачных хранилищам данных
📌   История Teradata
📌   Основы MPP Teradata, Data Distribution, Data Skew и Teradata CLI

На лабораторной работе вы будете использовать виртуальную мащину Teradata DW, вам нужно будет скачать ее и настроить доступ через конфигурацию сети. Дальше вы сможете загрузать данные через CLI инструмент и подключить Power BI. Таким образом у вас будет полноценное аналитическое решение (портативное), которое работает во многих компаниях.
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 6-2 ЧТО ТАКОЕ АНАЛИТИЧЕСКОЕ ХРАНИЛИЩЕ ДАННЫХ
В 95 процентах аналитических решений используется хранилище данных. Давайте будем считать, что это аналитическое хранилище данных. Но что это такое? Какие они бывают? Как давно они на рынке? На эти вопросы и другие я отвечу в это уроке.

На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов.  Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.

Из модуля вы узнаете:
📌   История хранилищ данных
📌   База данных vs Хранилище данных
📌   Хранилище данных (DW) vs Платформа данных
📌   Характеристики хранилища данных
📌   Архитектура Shared Nothing vs Shared Everything
📌   Cloud vs On-premise Хранилища данных
📌   Облачная экономика на примере ETL jobs
📌   Open Source vs Commercial Хранилища данных
📌   Хранилища данных на базе существующей технологии (Postgres) или свои…
источник
2021 August 30
Инжиниринг Данных
Прикольный комент про модуль 4. Ну в принципе так и есть))
источник
Инжиниринг Данных
Статья 2009 года про the schedules of makers versus managers.

The post argues that managers are most productive when their days are full of meetings, but makers—engineers and writers, in Graham’s examples—need large chunks of uninterrupted time to be productive.

То есть, если вы менеджер, то meetings это хорошо, а если вы инженер, то meetings обходится вам дороже, и вам не нужно их много.

Мне понравилось как автор описал проскратинацию - To do their work, Graham’s makers need both focus and a kind of warming up: They have to load a bunch of ideas into their heads and settle into their task. It takes a while to get into this state—and a single interruption can snap you out of it.

То есть пол дня тупить в телефоне это нормально, просто load a bunch of ideas into head and settle into task
источник
Инжиниринг Данных
Вот что бывает когда постишь вещи, которые до конца не понимаешь  (у мужика много ужасных комментов,  немного "вляпался")
источник
Инжиниринг Данных
Data Engineering 101: Writing Your First Pipeline
In Airflow and Luigi


One of the main roles of a data engineer can be summed up as getting data from point A to point B.

We often need to pull data out of one system and insert it into another. This could be for various purposes. This includes analytics, integrations, and machine learning.

But in order to get that data moving, we need to use what are known as ETLs/Data pipelines.

These are processes that pipe data from one data system to another.
источник
2021 August 31
Инжиниринг Данных
Databricks анонсировал Serverless SQL.

Under the hood of this capability is an active server fleet, fully managed by Databricks, that can transfer compute capacity to user queries, typically in about 15 seconds.

То есть вообще концепция serverless значит, что это где-то там, что-то там крутится и вертится само по себе, и всегда доступно нам, чтобы, например, выполнить SQL запрос. Самое популярное serverless решение было у AWS - Lambda functions (но не для SQL, а для Python, JS и тп):

AWS Lambda is a serverless compute service that lets you run code without provisioning or managing servers, creating workload-aware cluster scaling logic, maintaining event integrations, or managing runtimes.

Наприме, для DE и особенно для Redshift, лямбду можно использовтаь, чтобы при появлении новых файлов в S3, загружать их в Redshift.  Вот пример A Zero-Administration Amazon Redshift Database Loader.

Athena (Presto от AWS) - тоже serverless SQL - Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to manage, and you pay only for the queries that you run.

Даже Redshift Spectrum (такая штука для аналитического хранилища данных Redshift, которая позволяет создавать External Files и писать SQL к озеру данных, то есть кучи файлов в S3, часто в формате Parquet) - is serverless and there’s nothing to provision or manage. is serverless and there’s nothing to provision or manage.

Сама по себе lambda выполняет наш код при наступлении события, можно, например, отправить открытку человеку, которые потратил 100т рублей на курсы и остался не доволен (digital открытку), если клиент написал нам письмо с недовольством на no-reply@<school name>.ru

Обратно к самой технологии Serverless SQL. Безусловно - это удобно, только возникаем concern с безопасность, так как ваши данные буду processing на стороне вендора - At the core of Databricks Serverless SQL is a compute platform that operates a pool of servers, located in Databricks’ account, running Kubernetes containers that can be assigned to a user within seconds. (зато Kubernetes!, не придумал пока как их использовать)

Ну и самый главный Serverless SQL это у Azure Synapse - Serverless SQL pool is a distributed data processing system, built for large-scale data and computational functions. Serverless SQL pool enables you to analyze your Big Data in seconds to minutes, depending on the workload.Serverless SQL pool is a distributed data processing system, built for large-scale data and computational functions. Serverless SQL pool enables you to analyze your Big Data in seconds to minutes, depending on the workload.

В общем без них (без возможности Serverless SQL) никуда!
источник
Инжиниринг Данных
Как у вас с #mentalhealth? Очень популярно сейчас на Западе...
источник
Инжиниринг Данных
Databricks Raises $1.6 Billion Series H Investment at $38 Billion Valuation

Всего в Databricks было проинвестировано 3.4В, и он ещ ене на IPO. А в Snowflake - 1.4B и он уже на бирже. Я потерял доверие к Snowflake в этом году, так как цели владельцев стала погоня за доходом и сами создатели продукта ушли на задний план.

Этого пока не случилось с Databricks.
источник
Инжиниринг Данных
Alexey Kirkorov:
Коллеги, ищу лидера команды Data Science. Порекомендуйте пожалуйста в личку, если у кого-то кто-то есть на примете. Описание позиции ниже. Также нужны финансисты на управленческую отчетность.

Коротко:

сновные задачи - лидерство в развитии процессов с использованием ML&DL и в разработке моделей DS. Команда 4 человека.  
Для нас важно умение писать чистый, читаемый код на Python, знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.), опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг, опыт руководства командой.  


Основные задачи:
•  Выстраивание и развитие процессов с использованием ML&DL в компании:
o  Сбор требований бизнеса, обсуждение и формализация бизнес-задач, их декомпозиция, планирование и оценка;
o  Определение оптимальной архитектуры реализуемых решений;
•  Руководство разработкой моделей (полный цикл: от формализации задачи и подбора внешних/внутренних источников до имплементации решений в бизнес-процессы):
o  разработка рекомендательных моделей;      
o  оценки возможного потенциала клиента;      
o  максимизации совокупной доходности по клиенту;      
o  модели с аналитикой поведения клиента, формирующие сигналы необходимости коммуникации.  
•  Анализ больших объемов данных, выявление скрытых тенденций и закономерностей.  
•  Руководство командой по направлению анализа данных (4 человека).

Для нас важно:
•  Высшее образование (математика/физика/программирование);
•  Умение писать чистый, читаемый код на Python;  
•  Знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.);
•  Опыт использования ML-библиотек и алгоритмов на Python (xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;  
•  Опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг;  
•  Опыт руководства командой;
•  Хорошее понимание методов машинного обучения с точки зрения математики и умение адаптировать их под конкретные задачи;  
•  Уверенные знание SQL  (составление сложных запросов и их оптимизация);  
•  Отличные навыки презентации результата;
•  Понимание и опыт АB-тестирования;  
•  Плюсом будет:
o  опыт работы с Linux, Docker, Airflow, MLflow;
o  опыт работы с NLP инструментами NLTK, Pymorphy и пр.;  
o  опыт работы с BI инструментами Tableau, SSRS, Superset;
o  опыт построения DL pipeline с использованием фреймворков TF/Pytorch/Keras;
o  опыт использования Git, Jira, Confluence;  
o  опыт участия в хакатонах/соревнованиях по машинному обучению;      
o  пройденные курсы по ds/ml/cv.
 
🪆Сейчас на эту позицию вилка 3.0 - 4.0 млн.рублей годовой доход до вычета НДФЛ (13%). За вычетом этого налога сумма на руки.

Контакты по обеим вакансиям: Киркоров Алексей kirkorov@sberleasing.ru +79166599458 или Кирилин Кирилл Kirilin.KA@sberleasing.ru +7 916-593-76-83.
источник
Инжиниринг Данных
Курсы вышли на новый уровень расходов по рекламе, ещё не встречал на медузе такого. Значит норм зарабатывают на data science 🤑
источник
Инжиниринг Данных
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск)

Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.

Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)

Канал спикера: https://t.me/start_ds

Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
YouTube
Как подготовиться в первым собесам в DS и найти вакансии / Роман Васильев
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.

Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии нвоичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?

🔗 Канал спикера в ТГ: https://t.me/start_ds

-----------------------------------------------------------------------------------------------------------------

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым…
источник
2021 September 01
Инжиниринг Данных
Попалась статья 2020 про Zynga (social games), у них команда из 70 аналитиков и инженеров и они рассказывают как они мигрировали на python решения и какие иснтрументы используют. https://www.gamedeveloper.com/disciplines/the-zynga-analytics-platform-in-2020
источник
Инжиниринг Данных
Еще один интересный доклад из Game dev с конференции GDC (я про нее ранее писал) - Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games. Доклад больше про мобильные приложения, чем игры.

Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.

Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

PS ребята также поддержали фонд.
источник
2021 September 02
Инжиниринг Данных
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.

Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.

Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.

Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.

В общем автор круто расписал все значения и рассмотрел история вопроса.

По мне кубы (которые molap с MDX) - зло🤬
источник