Size: a a a

Инжиниринг Данных

2020 December 11
Инжиниринг Данных
Я же теперь в игровой индустрии, оказывается сегодня была Game Awards 2020.
источник
Инжиниринг Данных
Наверно поэтому все учат питон:)
источник
Инжиниринг Данных
Конференция Coalesce от dbt: что посмотреть?

С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.

Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.

Мой шорт-лист докладов, которые рекомендую изучить:

* dbt 101 dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's notKimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great ExpectationsBuilding a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with DagsterOrchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data teamSupercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluffPresenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packagesQuickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governancePerfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов

@leftjoin
источник
Инжиниринг Данных
Coral is a library for analyzing, processing, and rewriting views defined in the #Hive Metastore, and sharing them across multiple execution engines #Hive Metastore, and sharing them across multiple execution engines 💯💯💯

Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin

Coral consists of following modules:

✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
#Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
#apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
#Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
источник
2020 December 12
Инжиниринг Данных
Интересный обзор решений для аналитики и их ценообразование в статье “The Two Philosophies of Cost in Data Analytics
источник
Инжиниринг Данных
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that’s just the beginning. Dask is a framework to build distributed applications that has since been used with dozens of other systems like XGBoost, PyTorch, Prefect, Airflow, RAPIDS, and more. It’s a full distributed computing toolbox that fits comfortably in your hand.
источник
Инжиниринг Данных
источник
2020 December 13
Инжиниринг Данных
AWS берет пример с datalearn и учит всех бесплатно. шучу конечно, это борьба за рынок.
источник
2020 December 14
Инжиниринг Данных
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.

Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типов bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.

Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект.  Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.

В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.

А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
источник
Инжиниринг Данных
Блог про построение ананалического решения на google cloud.
источник
Инжиниринг Данных
Все привет, недавно познакомился с Машей, она ведёт авторский канал телеграм-канал о Python!

В нем:

🔺 топ ошибок новичков,
🔺 лайфхаки и трюки,
🔺 красивый код,
🔺 разбор вопросов с собеседований,

Тем, кто хочет понимать, что пишет: @python_in_depth

Как вы знает Python - это важный элемент для продвинутой аналитики данных, поэтому если вы используете его в работе или учитесь, то возможно будет интересно.
источник
2020 December 15
Инжиниринг Данных
Амазон Редшифт встал как кость поперек горла у основателя Оракл, и при любой возможности, он не упускает возможности про это сказать. Обиделся, что потерял самого жирного клиента в лице Амазон. Вот теперь говорит, что snowflake погубит Redshift. И это действительно так, redshift 2015 года уже давно не конкурент, а вот современный redshift с нодами RA3 (где уже разделение storage и compute и можно хранить вроде 10Pb) серьезный конкурент. Так что благодаря Snowflake, у нас довольно крутой Redshift сейчас и даже data sharing есть, осталось time travel. И у АWS огромные ресурсы сделать его ещё лучше. Они это делают медленно, чтобы у текущих клиентов ничего не сломалось. Azure только недавно выпустил Azure Synapse, сам CEO Microsoft рассказывал про него. А у Microsoft клиентов куры не клюют... В общем, snowflake как явление и продукт это круто. Я, например, не хочу snowflake, это слишком просто будет, лучше помучаться с delta lake от Databricks.
источник
Инжиниринг Данных
источник
2020 December 16
Инжиниринг Данных
Книга по data science. Согласно описанию совсем введение дают. A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issues, and ethical challenges.
источник
Инжиниринг Данных
Вы слышали про Саббатикалы? Вот и я нет. Оказывается это крутая тема, вопрос как ее провернуть.

Sabbaticals - a period of paid leave granted to a university teacher or other worker for study or travel, traditionally one year for every seven years worked.

В этом блоге хорошо про это рассказано.  Идея в том, чтобы каждые 5-7 лет брать отпуск на год, чтобы позаниматься чем-то другим. Идея тяжелой работы не все нравится, и у некоторых хватает смелости уйти с работы на год и провести время с семьей, научиться готовить или путешествовать (термин популярный до covid).

В общем знайте, что есть такая возможность, и где-то после 30 - это хорошая идея одолжить годик от пенсии и провести его так как нравиться.

PS я пока не могу себе позволить такую роскошь🙄 а как хотелось бы))

А еще цитата понравилась - “They say that Amazon years are like dog years and I definitely feel that because I am burnt out. “ Амазон он такой😑

Вот еще - “Emails, even urgent work emails, can wait for 3/4 hours. If something is that urgent they can call me my phone (If I work for someone that can't tolerate waiting for 4 hours for me to get back to them, they can suck my d*** and find another employee)” Я вообще уже забил на email рабочий и свой, проверяю иногда))
источник
Инжиниринг Данных
В новом видео по BI-системам говорим о дашборде, построенном в Google DataStudio: как подключить к дашборду датасорс из гугл-таблиц или из других источников, добавить новые фактоиды и настроить данные и визуализации.

Посмотрите на полученный результат, на оценки нашей команды в материале блога и ответьте на два небольших вопроса.
источник
Инжиниринг Данных
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
источник
Инжиниринг Данных
Мое любимо словосочетание - Analytics Engineering в Spotify.

Кстати у меня в команде не прижилось, оставили BI и Data Engineering. Вообще любые изменения очень болезненны. прихожу я такой умный, и говорю, у вас тут все плохо, работаем по другому, и меняю название команд и тп. Так не работает. Они там годами создавали свое детище.  Нужно в лучших традициях Amazon leadership principals использовать Earn Trust. То есть сначала мы просто слушаем и смотрим, делаем, что от нас хотят, и потихоньку начинаем вместе меня процессы, инструменты. Это целая наука про внесение изменений, про это написано много книг. Без этого не получится сделать, что-нибудь значимое. А у вас как с изменениями, пушите на работе в лоб или в обход?:)
источник
Инжиниринг Данных
В продолжение истории про внесение изменений. Framework от McKinsey. Сейчас в Microsoft проходит games analytics summit и сегодня был доклад от руководителя аналитики, который был крутым челом в McKinsey и потом head of strategic advisory в League of Legends и теперь руководит аналитикой в одной из студий. Его доклад был прям из разряда strategic advisory/consulting, очень круто. Он как раз скинул этот framework.
источник
2020 December 17
Инжиниринг Данных
Подарки от Xbox для newcomers. Обожаю всякие стикеры, значки и другой мерч. Когда-нибудь создадим для datalearn.
источник