Телеграмм чат группы hadoopusers страница 2967

Может меняться и чаще, но важно чтобы источник также придерживался схемы, пусть она и меняется.. по факту вы придумываете схему на каждое сообщение (или пачку) а потом эти повышенные обязательства которые сами себе придумали несёте и пытаетесь исполнять дальше

источник

01:10пожаловаться #6

SS

Sergey Sheremeta in Data Engineers

то есть пока поставщики данных не будут сами обновлять схему перед изменением своих продюсеров - нечего и пытаться в это влезать?

источник

01:11пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

дампит коллекции/документы из Mongo

Если коллекции с валидатором по схеме и validationAction=error то тогда можно подумать про SR, иначе - нет

источник

01:13пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

то есть пока поставщики данных не будут сами обновлять схему перед изменением своих продюсеров - нечего и пытаться в это влезать?

Да, строгую схему выводить на своей стороне не нужно; но аналитику все равно как-то надо делать, поэтому обычно мы договариваемся с такими товарищами не о схеме, а о наборе соглашений, конвенций, какие атрибуты в каком виде должны быть, какие опциональные (и как трактовать их отсутствие)... эти конвенции мы уже приводим к схеме, отбрасывая все о чем мы не знаем (суть паттерна tolerant reader), но сырые данные тогда точно придётся хранить, они гораздо чаще нужны

источник

01:18пожаловаться #9

SS

Sergey Sheremeta in Data Engineers

Anton Zadorozhniy

Да, строгую схему выводить на своей стороне не нужно; но аналитику все равно как-то надо делать, поэтому обычно мы договариваемся с такими товарищами не о схеме, а о наборе соглашений, конвенций, какие атрибуты в каком виде должны быть, какие опциональные (и как трактовать их отсутствие)... эти конвенции мы уже приводим к схеме, отбрасывая все о чем мы не знаем (суть паттерна tolerant reader), но сырые данные тогда точно придётся хранить, они гораздо чаще нужны

сырые данные, безусловно, храним!
Антон, спасибо за развернутые ответы!

источник

01:24пожаловаться #10

ДН

Дмитрий Негреев... in Data Engineers

Sergey Sheremeta

дяденьки, а кто-то может по-простому рассказать про типовые сценарии работы со Schema Registry?
ну там пыщь-пыщь, пиу-пиу

У нас там схемы для чтения avro формата лежат. Он и жмётся лучше жсона, и структурировано что-то на входе

источник

04:34пожаловаться #11

SD

Serg D. in Data Engineers

Всем привет. Ребят достался мне в наследство небольшой scala приклад. Читает из hbase, выполняет небольшие преобразования, делит выборку на несколько логических блоков и каждый блок пишет в parquet файл. Объемы смешные - 200-300 Мб. Но выполняется это по несколько часов. Например так:

источник

09:37пожаловаться #12

SD

Serg D. in Data Engineers

источник

09:37пожаловаться #13

SD

Serg D. in Data Engineers

Может кто подскажет в какую сторону можно начать "копать"?

источник

09:37пожаловаться #14

AS

Andrey Smirnov in Data Engineers

Начни с того как он читает с hbase

источник

09:57пожаловаться #15

S

Shadilan R16 MU Rost... in Data Engineers

Sergey Sheremeta

дяденьки, а кто-то может по-простому рассказать про типовые сценарии работы со Schema Registry?
ну там пыщь-пыщь, пиу-пиу

Мы используем как фиксированный контракт с пользователями данных а требуемой информации (Сырые данные лежат отдельно на всякий случай) а схема говорит о том что аналитикам нужно из сырья, и служит основанием для создания таблиц в RDB. Если просто брать JSon то таблицы надо будет пересоздавать динамически, ну или при обработке сразу идти от таблиц (что показалось не хорошей идеей лазить постоянно в базу смотреть что там за таблица, показалось что это лучше вынести в специализированный инструмент) Ну и кроме того схема реджистри позволяет жить с мультиформатом, по хорошему без разницы что у тебя за данные в источнике JSON CSV AVRO (даже местами XML) ты можешь описать их в схеме. А ну и да мы тоже зачастую внутри потоков данных используем AVRO.

источник

10:01пожаловаться #16

SD

Serg D. in Data Engineers

Andrey Smirnov

Начни с того как он читает с hbase

Можно подробнее? что может быть не так?

источник

10:01пожаловаться #17

M

Mironiken in Data Engineers

Serg D.

Можно подробнее? что может быть не так?

А залоггировать операции и смотреть логи с экзекьюторов нынче немодно?

источник

10:02пожаловаться #18

AS

Andrey Smirnov in Data Engineers

Serg D.

Можно подробнее? что может быть не так?

Вы можете вычитывать всю таблицу и на спарке ее фильтровать

источник

10:03пожаловаться #19

SD

Serg D. in Data Engineers

Mironiken

А залоггировать операции и смотреть логи с экзекьюторов нынче немодно?

Модно. Пока не нашел там ничего, что могло бы прояснить ситуацию. Но у меня и доступ к кластеру и логам ограничен, к сожалению. Параллельно пытаюсь решить и эту проблему, но пока приходится работать как с черным ящиком.

источник

10:05пожаловаться #20