Size: a a a

2021 February 03

NN

No Name in Data Engineers
K S
Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне  😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически  делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.
Если у вас хайв, то и на нем без особых проблем можно реализовать scd2
источник

KS

K S in Data Engineers
No Name
Если у вас хайв, то и на нем без особых проблем можно реализовать scd2
Где можно об этом почитать?
источник

NN

No Name in Data Engineers
K S
Где можно об этом почитать?
Честно говоря, я об этом дополнительно нигде не читал, сам же, когда потребовалось, реализовывал, например, через uuid. Но вот простенько погуглил, тут вот есть что-то:
https://github.com/sahilbhange/hive-sql-slowly-changing-dimension/blob/master/Read%20Me%20SCD-2.pdf
источник

NN

No Name in Data Engineers
K S
Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне  😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически  делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.
Единственное, что мне не совсем понятно, почему Вы считаете, что это сэкономит ресурсы. Наоборот, этот вариант предполагает появление историчности, ну и цепочка вычислений станет длиннее.
источник

KS

K S in Data Engineers
No Name
Единственное, что мне не совсем понятно, почему Вы считаете, что это сэкономит ресурсы. Наоборот, этот вариант предполагает появление историчности, ну и цепочка вычислений станет длиннее.
Обьем данных у нас сейчас узкое место, поскольку пропихнуть полные снепшоты в хадуп занимает довольно много часов. Поэтому оптимизация скорее тактическая.
источник

NN

No Name in Data Engineers
K S
Обьем данных у нас сейчас узкое место, поскольку пропихнуть полные снепшоты в хадуп занимает довольно много часов. Поэтому оптимизация скорее тактическая.
Ну, смотрите - суть scd2 в том, что вы хотите хранить историю изменений, и в этом нет элемента оптимизации. Ваш вариант (scd1) в плане экономии места оптимальнее, ведь вы просто перезаписываете данные, и у вас всегда актуальный срез. У Вас какой кейс?
источник
2021 February 04

KS

K S in Data Engineers
No Name
Ну, смотрите - суть scd2 в том, что вы хотите хранить историю изменений, и в этом нет элемента оптимизации. Ваш вариант (scd1) в плане экономии места оптимальнее, ведь вы просто перезаписываете данные, и у вас всегда актуальный срез. У Вас какой кейс?
Согласен, однако объем данных ведь растёт. То есть data at rest меньше чем с историей изменений, но data in transit уже не помещается в существующие ресурсы или требуется настолько больше времени для обработки, что для бизнеса эта информация становится устаревшей.
источник

АА

Алексей Артамонов... in Data Engineers
подскажите как вытащить эту метрику через rest api
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Согласен, однако объем данных ведь растёт. То есть data at rest меньше чем с историей изменений, но data in transit уже не помещается в существующие ресурсы или требуется настолько больше времени для обработки, что для бизнеса эта информация становится устаревшей.
вам уже ответили, выгрузка из источника и загрузка в объектный сторадж никак не связаны с ACID форматами, вам нужно сначала решить задачу забора инкремента из источников, а потом уже оптимизировать как оно хранится в детальках и витринах
источник

A

Alexander in Data Engineers
Товарищи, нет ли тулзы для поиска битых AVRO?
источник

S

Shadilan R16 MU Rost... in Data Engineers
Alexander
Товарищи, нет ли тулзы для поиска битых AVRO?
Причём желательно с внешней схемой а не с embed
источник

N

Nikita Blagodarnyy in Data Engineers
Alexander
Товарищи, нет ли тулзы для поиска битых AVRO?
Ну в самом авро вроде были классы валидации схема
источник

T

T in Data Engineers
Alexander
Товарищи, нет ли тулзы для поиска битых AVRO?
А чем avro tools не подошло?
источник

T

T in Data Engineers
там же если я правильно помню можно даже внешнюю схему указать
источник

T

T in Data Engineers
T
А чем avro tools не подошло?
можно еще на спарке навелосипедить с spark.sql.files.ignoreCorruptFiles=true
источник

T

T in Data Engineers
чтобы он закарпченые в логи писал
источник

AZ

Anton Zadorozhniy in Data Engineers
прям валидатора по строкам в авротулс нет (обычно пишут на месте, например дергают DataFileReadTool и пишут JSON в /dev/null), для битых есть DataFileRepairTool
источник

AZ

Anton Zadorozhniy in Data Engineers
T
можно еще на спарке навелосипедить с spark.sql.files.ignoreCorruptFiles=true
this
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще битые не только авро бывают, такие штуки универсальными имеет смысл написать
источник

S

Shadilan R16 MU Rost... in Data Engineers
Хммм ситуация когда внутри файла 100 записей и 50 запись битая :( хочется что нибудь чтобы достать хотя бы 49 записей ... в идеале 99 :)
источник