Телеграмм чат группы hadoopusers страница 3213

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2308 membersпожаловаться на группу

2021 February 03

NN

No Name in Data Engineers

Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне 😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.

Если у вас хайв, то и на нем без особых проблем можно реализовать scd2

источник

23:06пожаловаться #1

KS

K S in Data Engineers

Если у вас хайв, то и на нем без особых проблем можно реализовать scd2

Где можно об этом почитать?

источник

23:07пожаловаться #2

NN

No Name in Data Engineers

Где можно об этом почитать?

Честно говоря, я об этом дополнительно нигде не читал, сам же, когда потребовалось, реализовывал, например, через uuid. Но вот простенько погуглил, тут вот есть что-то:
https://github.com/sahilbhange/hive-sql-slowly-changing-dimension/blob/master/Read%20Me%20SCD-2.pdf

sahilbhange/hive-sql-slowly-changing-dimension

Slowly Changing Dimension type 2 using Hive query language using exclusive join technique with ORC Hive tables, partitioned and clustered hive table performance comparison - sahilbhange/hive-sql-sl...

источник

23:13пожаловаться #3

NN

No Name in Data Engineers

Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне 😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.

Единственное, что мне не совсем понятно, почему Вы считаете, что это сэкономит ресурсы. Наоборот, этот вариант предполагает появление историчности, ну и цепочка вычислений станет длиннее.

источник

23:23пожаловаться #4

KS

K S in Data Engineers

Единственное, что мне не совсем понятно, почему Вы считаете, что это сэкономит ресурсы. Наоборот, этот вариант предполагает появление историчности, ну и цепочка вычислений станет длиннее.

Обьем данных у нас сейчас узкое место, поскольку пропихнуть полные снепшоты в хадуп занимает довольно много часов. Поэтому оптимизация скорее тактическая.

источник

23:29пожаловаться #5

NN

No Name in Data Engineers

Обьем данных у нас сейчас узкое место, поскольку пропихнуть полные снепшоты в хадуп занимает довольно много часов. Поэтому оптимизация скорее тактическая.

Ну, смотрите - суть scd2 в том, что вы хотите хранить историю изменений, и в этом нет элемента оптимизации. Ваш вариант (scd1) в плане экономии места оптимальнее, ведь вы просто перезаписываете данные, и у вас всегда актуальный срез. У Вас какой кейс?

источник

23:33пожаловаться #6

2021 February 04

KS

K S in Data Engineers

Ну, смотрите - суть scd2 в том, что вы хотите хранить историю изменений, и в этом нет элемента оптимизации. Ваш вариант (scd1) в плане экономии места оптимальнее, ведь вы просто перезаписываете данные, и у вас всегда актуальный срез. У Вас какой кейс?

Согласен, однако объем данных ведь растёт. То есть data at rest меньше чем с историей изменений, но data in transit уже не помещается в существующие ресурсы или требуется настолько больше времени для обработки, что для бизнеса эта информация становится устаревшей.

источник

07:24пожаловаться #7

АА

Алексей Артамонов... in Data Engineers

подскажите как вытащить эту метрику через rest api

источник

11:42пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Согласен, однако объем данных ведь растёт. То есть data at rest меньше чем с историей изменений, но data in transit уже не помещается в существующие ресурсы или требуется настолько больше времени для обработки, что для бизнеса эта информация становится устаревшей.

вам уже ответили, выгрузка из источника и загрузка в объектный сторадж никак не связаны с ACID форматами, вам нужно сначала решить задачу забора инкремента из источников, а потом уже оптимизировать как оно хранится в детальках и витринах

источник

12:08пожаловаться #9

A

Alexander in Data Engineers

Товарищи, нет ли тулзы для поиска битых AVRO?

источник

13:29пожаловаться #10

S

Shadilan R16 MU Rost... in Data Engineers

Товарищи, нет ли тулзы для поиска битых AVRO?

Причём желательно с внешней схемой а не с embed

источник

14:14пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

Товарищи, нет ли тулзы для поиска битых AVRO?

Ну в самом авро вроде были классы валидации схема

источник

14:26пожаловаться #12

T

T in Data Engineers

Товарищи, нет ли тулзы для поиска битых AVRO?

А чем avro tools не подошло?

источник

14:27пожаловаться #13

T

T in Data Engineers

там же если я правильно помню можно даже внешнюю схему указать

источник

14:28пожаловаться #14

T

T in Data Engineers

А чем avro tools не подошло?

можно еще на спарке навелосипедить с spark.sql.files.ignoreCorruptFiles=true

источник

14:29пожаловаться #15

T

T in Data Engineers

чтобы он закарпченые в логи писал

источник

14:29пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

прям валидатора по строкам в авротулс нет (обычно пишут на месте, например дергают DataFileReadTool и пишут JSON в /dev/null), для битых есть DataFileRepairTool

источник

14:29пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

можно еще на спарке навелосипедить с spark.sql.files.ignoreCorruptFiles=true

this

источник

14:31пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

вообще битые не только авро бывают, такие штуки универсальными имеет смысл написать

источник

14:31пожаловаться #19

S

Shadilan R16 MU Rost... in Data Engineers

Хммм ситуация когда внутри файла 100 записей и 50 запись битая :( хочется что нибудь чтобы достать хотя бы 49 записей ... в идеале 99 :)

источник

16:22пожаловаться #20