Size: a a a

2021 December 08

R

Renarde in Data Engineers
YouTube
Databricks - унифицированная Lakehouse платформа для ETL, ML и BI нагрузок / Иван Трусов
Многие компании сталкиваются с различными проблемами при построении унифицированной платформы для работы с данными.
На этом вебинаре Иван Трусов, Solution Architect в Databricks расскажет как с помощью Databricks можно быстро и эффективно создать такую платформу на облачных технологиях, а так же о новом подходе к построению архитектуры многоцелевых хранилищ данных под названием Lakehouse.

Информация о спикере:
Иван имеет 6 лет опыта реализации проектов в сферах ML и Data Engineering в таких компаниях как MTS, Beeline, Sberbank и Zalando, а так же является автором Telegram канала Anscombes Quartet. Его ключевые технические компетенции - в областях Data Engineering (в особенности Streaming ETL и Delta Lake), а так же в ML (Model Serving, MLOps).

--------------------------------------------------------------------------------------------------------------
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!…
источник

N

Nikita Blagodarnyy in Data Engineers
mv это атомарная операция в HDFS, мы тут это как-то выясняли с год назад. так что ситуация когда возвращается пусто невозможна в моем понимании.
источник

N

Nikita Blagodarnyy in Data Engineers
а вот файлнотэкзист эксепшон наверняка будет. потому что между чтением метаинформации о файлах и их реальным чтением в процессе исполнения они заменятся на другие
источник

РП

Роман Пашкевич... in Data Engineers
Либо на этой неделе, либо в начале следующей. Как раз будем это тестировать + "соление данных". Приду отпишусь от результатах.
источник

MV

Maksim Vasilev in Data Engineers
Спасибо
источник

AS

Andrey Smirnov in Data Engineers
вроде наоборот, выяснили что атомарная, и это не понятно почему в доках датабрикса висит как не атомарная
источник

k

kvadratura in Data Engineers
можно линк на доку? в hdfs - mv - это просто rename, насколько я помню. но в aws s3 rename префикса будет перемещать файлы по-настоящему, и может упасть посередине
источник

AS

Andrey Smirnov in Data Engineers
нет, тут уже в исходники смотрели, поиск может помочь
источник
2021 December 09

A

Alex in Data Engineers
@kvadratura

И дальше обсуждение со ссылками на неймсервер hdfs, где ренейм делает под локом работу с метаданными
источник

I

Ibp in Data Engineers
добрый день, есть ли какие то решения для автоматического апдейта таблицы с курсами валют в mysql? через airflow может? где почитать можно?
источник

S

Stanislav in Data Engineers
Для какого провайдера? Почти все дают свое апи, скрипт опроса которого и кладётся в аф
источник

k

kvadratura in Data Engineers
спасибо, нашел
источник

k

kvadratura in Data Engineers
спасибо
источник

I

Ibp in Data Engineers
да пока не определился для какого, просто курсы нужно usd и евро, хотя бы раз в день складировать. вот такое вот нашел - https://tech.marksblogg.com/airflow-postgres-redis-forex.html как думаете сработает?
источник

S

Stanislav in Data Engineers
в ецб раз в день выкладывают хмл с основными парами. если не нужна экзотика, то этого хмля за глаза
источник

SK

Sergey Kaurov in Data Engineers
Привет 👋
Что за глюк может быть, в ui (в web) hadoop отображается одинаковое имя одного из datanode, он же namenode
Всего 6 datanode и и эта, с одинаковым именем в разделе как LostNode - потерянная..? Бред какой-то
источник

SK

Sergey Kaurov in Data Engineers
+ и останавливается через:
kill - 9, если через общий скрипт stop-all.sh.
источник

DS

Denis Stadnik in Data Engineers
Выглядит как огромное усложнение (автор занимается консалтингом, видимо сложностью решения рекламирует что он умеет).

Airflow либо Cron + скрипт который в случае ошибки получения курса с одного сайта, берет со второго. Если совсем надежное решение нужно, то можно запрашивать по очереди курс от 3 сайтов.
источник

D

Dmitriy in Data Engineers
А какое там усожнение то? Просто airflow
источник

Б

Борис in Data Engineers
Эйрфлоу для того что бы с Апишки забрать xml и распарсить.
источник