Телеграмм чат группы hadoopusers страница 4299

Привет!

Радостная новость! Русская Школа Программирования совместно с компанией “МегаФон” и Фондом президентских грантов запускает бесплатные онлайн-курсы по Big Data и Data Science!🥳

Мы создали два курса:

1️⃣ 🟩 Для начинающих - то, что подойдет новичкам без подготовки.

Здесь вы познакомитесь со сферой Data Science - с нуля изучите основы науки о данных, освоите азы работы с ключевыми инструментами (SQL, Python), решите свою первую задачу машинного обучения и создадите настоящую реляционную базу данных. А еще узнаете, как управлять проектами и вести коммуникацию с проектной командой.

📌 Ссылка на курс: https://vk.cc/c6qJZZ

2️⃣ 🟪 Для продолжающих - то, что подойдет участникам с базовыми знаниями.

Здесь вы углубитесь в направление Data Science - научитесь работать с архитектурой MapReduce и экосистемой Apache Hadoop, разберетесь с устройством Apache Spark и Apache Parquet, освоите основы нейронных сетей и их архитектур. А еще узнаете, как проводить бизнес-аналитику с Power BI и какие soft skills нужны руководителю проектов.

📌 Ссылка на курс: https://vk.cc/c6qKqd

А что еще?

📍 Уроки подаются в понятном интерактивном формате - можно смотреть видео, читать полезные материалы, проходить тесты и решать задачки. Новые модули - раз в неделю.

📍 Все преподаватели - практикующие эксперты Data Science. Они ежедневно работают с тем, чему обучают, и точно знают свое дело.

📍 Никакой рутины и ограничений: нет фиксированных дедлайнов, количество попыток для решения заданий не ограничено, и в любой момент можно обратиться к куратору за помощью.

📍 А еще после прохождения курсов каждый желающий получит сертификат.

Для регистрации достаточно оставить свои данные по ссылке:

🟩 Курс для начинающих: https://vk.cc/c6qJZZ

🟪 Курс для продолжающих: https://vk.cc/c6qKqd

Удачи!

источник

21:08пожаловаться #9

Yaroslav S Ivanov in Data Engineers

А какую задачу решаете?
Сохранение историчности для входящих данных?

источник

22:03пожаловаться #10

Anton Zadorozhniy in Data Engineers

А на SMP СУБД?

источник

22:05пожаловаться #11

Dmitry in Data Engineers

да, по большому счету это DWH перетащенная с нескольких ораклов

источник

22:07пожаловаться #12

Dmitry in Data Engineers

после хадупа есть вертика для BI, но там лишь совсем базис нужный BI, истории вероятно там и нет

источник

22:08пожаловаться #13

Yaroslav S Ivanov in Data Engineers

Т.е. строите таблицы с признаком периода актуальности для каждой записи (медл.мен.изменения?) или историчность достигается за счёт генерируемых делтой ивентов?

источник

22:15пожаловаться #14

Dmitry in Data Engineers

у каждой таблички две витрины, как в источнике и с историей. в истории просто дата и номер версии. в обе витрины дельты именно MERGE командой вмердживаются

источник

22:22пожаловаться #15

Dmitry in Data Engineers

а, есть еще отдельные витрины, уже для человеков где строятся таблички с SCD2 некоторых полей

источник

22:24пожаловаться #16

Dmitry in Data Engineers

т.е. со start_date end_date, это уже обычные паркеты, каждый день с нуля перестраиваются

источник

22:26пожаловаться #17

Yaroslav S Ivanov in Data Engineers

Долго вчитывался, но вроде понял:
Во второй таблице -
Дата появления новой версии записи и порядковый номер версии.

А честный scd2 у вас строится отельным механизмом (видимо, на основе таблиц, от экоторых идёт речь выше?)

источник

22:31пожаловаться #18

._. in Data Engineers

Добрый вечер. Хочется попробовать project-driven подход к изучению spark. Выглядит ли полезным и несложным проект проект из таких модулей:

1) Кастомный экстрактор для какой-нибудь api/другого источника
2) Манипуляции спарком
3) Складирование
4) Визуализация Tableau
?

источник

22:31пожаловаться #19

._. in Data Engineers

Я не совсем могу оценить сложность 2 и 4 пунктов и, может, есть более полезные штуки с этим всем

источник

22:32пожаловаться #20