Size: a a a

Инжиниринг Данных

2021 April 21
Инжиниринг Данных
Будет PDF, присылайте! Уверен крутая книга🤠
источник
Инжиниринг Данных
Анастасия Дробышева записала 5й урок модуля 1.
Если еще не записались на курс Job Hunting, то Welcome!
источник
Инжиниринг Данных
А вот ещё один отзыв #datalearn ! И это мы ещё только половину сделали из запланированного контента.




Хочу поблагодарить тебя за твой крутейший образовательный проект! Благодаря нему я услышал про дивный мир дата инженеров, вдохновился, начал проходить курс, приобретать новые знания и подтягивать имеющиеся неструктурированные.
В итоге сменил сферу деятельности на ту, которая меня больше драйвит и выглядит более перспективной: продуктовая/ BI аналитика в одной из топовых IT компании РФ, цифровыми продуктами которой большинство из нас пользуется регул(Я)рно.

Не скажу, что я "ворвался в IT", т.к. до этого я уже был системным\бизнесовым аналитиком (тем самым "бизнес-аналитиком", быть которым у нас в РФ означает что угодно).
Тем не менее, сдвиг парадигмы произошел значительный (крупнейший за последнее время), задачи теперь более осмысленные и ежедневная деятельность ощущается по-новому!
источник
Инжиниринг Данных
Я много писал про delta lake от Databricks. А есть ещё одно интересное решение, и мы о нём узнаем, наш следующий вебинар!

Друзья, завтра (22 апреля) в 19:00 по мск вебинар
Тема: озеро данных
Вещать будет Viktor Kessler, он из самого Dremio, Solution Architect.
Ссылка на вебинар: https://youtu.be/W9JvqMAc73Y
Не буду говорить, что всем нужно быть, будет прикольно, если вообще никто не придет :)))
https://youtu.be/W9JvqMAc73Y
Не буду говорить, что всем нужно быть, будет прикольно, если вообще никто не придет :)))
источник
2021 April 22
Инжиниринг Данных
источник
Инжиниринг Данных
Учите эксель? Занятия не должны быть скучными! Мне кажется у такого учителя скучно не бывает))
источник
Инжиниринг Данных
Через 5 минут начинаем:
https://youtu.be/W9JvqMAc73Y
источник
2021 April 24
Инжиниринг Данных
Виктор Кесслер очень классно рассказал про современный landscape решений и про индустрию. Рассказал про историю продукта Dremio и Apache Arrow, и много другого. Обаятельно посмотрите доклад и узнаете много нового. https://youtu.be/W9JvqMAc73Y
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2021 April 25
Инжиниринг Данных
Orphaned (осиротевшая) Analytics are one-off Machine Learning (ML) models written to address a specific business or operational problem, but never engineered for sharing, re-use and continuous-learning and adapting. То есть модель, которая решает конкретную задачу, но о ней мало кто знает внутри организации. А еще лучше, если человек, который ее создал, просто уволился.

Этот термин отлично подойдет для дашбордов, таблиц фактов, ETL jobs.

А вот сама статья.
источник
Инжиниринг Данных
Компания Thoughtworks (BI вендор) выпускает интересный digest - Technology Radar. В свежем выпуске они рассказали про тренды в аналитике. Многое мы уже и так знаем, например о популярности SQL, удобстве dbt для T в процессе ELT, data mesh и mainstream machine learning.

Еще они затронули тему monorepo. У кого-то есть соображения по этому вопросу?  

PS Кстати, мы готовим очень полезный курс - DevOps для инжиниринга данных на Azure. Автор курса дата инженер Майкрософт из Сиэтла, наша соотечественница. Я сам жду этот курс, чтобы добавить best practices в свою работу.
источник
Инжиниринг Данных
В статье сравниваю форматы таблиц для озера данных: Hudi, Iceberg и Delta Lake.
источник
Инжиниринг Данных
А тут, автор сравнивает Redshift (для меня это обычно хранилище данных), PrestoDb, Trino (никогда не слышал). И вообще SQL движков очень много, автор решил привлечь внимание к своему продукту. Вы какие SQL движки используете для аналитики? У меня теперь целый арсенал в Synapse:
- Serverless SQL Pool - managed SQL engine (платим только, когда используем)
- Dedicated SQL Pool - аналитическое MPP хранилище данных
- Spark Pool - кластер managed Spark на Azure
источник
Инжиниринг Данных
Вот как бывает - чувак был BI консультантом, я его даже приглашал в Amazon на BI tech talks года 3 назад, а сейчас он баллотируется в меры))
источник
2021 April 26
Инжиниринг Данных
Backstage модуль 5
источник
Инжиниринг Данных
Layering Your Data Warehouse with dbt (open source инструмент для T в ELT):
1. Root Layer - The first layer is the landing zone for any initial data ingestion.
2. Logic Layer - The logic layer is where the heavy lifting of your data transformation is done.
3. Dimension and Activity Layer - This layer is where we begin to surface data models for others to use in their own analysis and projects.
4. Reporting Layer - This layer is for your metric calculations and any levels of aggregation you might need for reporting.
источник
Инжиниринг Данных
Интересный материал.
источник
Инжиниринг Данных
Переслано от Dmitry N
источник
Инжиниринг Данных
Котятки🐱
В Билайне удалось выстроить очень удачный онбординг для аналитиков из бизнеса, - они очень плавно вливаются во внутреннее сообщество Qlik, даже не зная на этапе входа модного слова self-service.
Мне это рассказывали, что называется, "на правах очевидца и участника событий", но тогда, в 2020, верилось мне с трудом.
Теперь прояснилось, - смотрим видео, кайфуем, перенимаем:
https://youtu.be/jhQ2NVgLCu4
источник