Size: a a a

2021 June 11

AM

Almaz Murzabekov in Data Engineers
Ребята, кто хорошо понимает внутренности Delta Format, ведь это утверждение из книги неправда же?

Rather than throw an error for User 2, Delta Lake prefers to handle this conflict optimistically. It checks to see whether any new commits have been made to the table, and updates the table silently to reflect those changes, then simply retries User 2’s commit on the newly updated table (without any data processing), successfully committing 000002.json.
источник

AM

Almaz Murzabekov in Data Engineers
Иначе получается, что данные могут быть просто задублированы если в один и тот же момент две таски попытаются записать одни и те же данные
источник

AM

Almaz Murzabekov in Data Engineers
Где я неправ?
источник

РП

Роман Пашкевич... in Data Engineers
У нас все описание на wiki (confluence). Обычные таблички с описанием полей. Отдельная колонка с описанием кода (если поле заполняется как то хитро). Под таблицей код, если таблица получается в виде запроса из нескольких источников.
источник

РП

Роман Пашкевич... in Data Engineers
Ну и все этотв иерархии бд/схема/таблица
источник
2021 June 12

SS

Sergey Sheremeta in Data Engineers
Коллеги, привет! Кто-то использует уже Databricks Photon? Настолько хорош как обещают?
источник
2021 June 13

Н

Никита in Data Engineers
Всем привет, а подскажите пожалуйста, как можно распараллелить запись в спарке по партициям?
Если я напишу df.write.coalesce(1).saveAsTable("table", parititonBy="date_col"), то у меня будет 1 активные стейдж, хотя по-моему он может писать параллельно все партиции
источник

N

Nail in Data Engineers
Может убрать coalesce?
источник

Н

Никита in Data Engineers
я хочу чтоб в 1 партиции был 1 файл
источник

N

Nail in Data Engineers
df.repartition($"date_col").write..... и т.д.
источник

Н

Никита in Data Engineers
согласен, я не понимаю почему так не работает by default
источник

N

Nail in Data Engineers
Может быть потому что не всем нужно так как вам?
источник

.

._. in Data Engineers
Ребят, что бы вы хотели видеть от джуна+-дата инженера?

Мы занимаемся etl процессами, но мне кажется, что наши процессы все равно отличаются от "общепринятых" и тот опыт, который я получаю здесь, на общем рынке не будет так конкурентен с опытом других ребят в тех же компаниях, которые занимаются etl.
источник
2021 June 14

ks

kuzya shishkin in Data Engineers
sql и язык python/java/scala обяз, мне кажется
источник

А

Александр in Data Engineers
а Spark ?
источник

GP

Grigory Pomadchin in Data Engineers
можно научить
источник

.

._. in Data Engineers
Ну это же общие слишком вещи. Вот мы юзаем airflow и пишем на Питоне. Но не юзаем Sql. Вот если я сейчас решаю задачки на SQL, то в чем я отстаю?
источник

AZ

Anton Zadorozhniy in Data Engineers
Походите по собеседованиям, вам расскажут
источник

.

._. in Data Engineers
Справедливо
источник

D

Dmitry in Data Engineers
все там верно. user1 добавил 000001.json, user2 при первой попытки обламился, перечитал 000001.json и только после этого пошел свое считать/писать. т.е. параллельно ничего не выполнялось
источник