Добавил
урок 6.6 - про современные ETL/ELT
ETL(ELT) инструменты нам нужны, чтобы наполнять наше хранилище данных, ну или платформу данных. Для современных аналитических инструментов лучше использовать современные инструменты интеграции. Прежде чем выбирать инструмент, нужно понимать фундаментальные основы построения аналитического решения, его слои и компоненты, разницу между ETL и ELT, между Batch и Stream, между on-premise и cloud и многое другое. Задача инженера данных выбрать правильное решение для обработки и хранения данных.
В этом видео:
📌 Рассмотрим простой пример интернет-магазина и необходимости интеграции данных и аналитического решения
📌 Что такое Data Pipeline?
📌 ETL App или Coding? (Python, Scala и тп)
📌 ETL on-premise и Cloud (AWS, Azure, GCP)
📌 ETL разработчик или Data Engineer
📌 Open Source or Not Open Source
📌 Архитектура современного решения с использованием On-premise tools
📌 Архитектура современного решения с использованием коммерческих продуктов
📌 Обзор решений западного рынка
📌 Пример ETL vs ELT с использованием Pentaho DI и Redshift
📌 ETL Job = DAG (Direct Acyclic Graph)
📌 Обзор решений: MatillionETL, Fivetran, Apache Airflow, Azure Data Factory, AWS Glue
На лабораторной работе я покажу как запустить Matillion ETL, DBT cloud, Talend, Informatica, ETL Leap, Qlikview через Snowflake Partner Connect. Особенно детально я покажу как выглядит Matillion ETL и как вы можете выполнить задание 4го модуля по Superstore Star Schema (dimensional modelling) в Matillion ETL.