Телеграмм чат группы hadoopusers страница 3301

2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь

источник

10:35пожаловаться #4

RY

Ruslan515 Y in Data Engineers

Anton Zadorozhniy

2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь

еще раз спасибо за развернутый ответ!

источник

10:38пожаловаться #5

RY

Ruslan515 Y in Data Engineers

Anton Zadorozhniy

2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь

4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь

. Правильно понимаю, что просто пишем скрипт копирования данных из cassandra в greenplum?

источник

10:58пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Ruslan515 Y

4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь

. Правильно понимаю, что просто пишем скрипт копирования данных из cassandra в greenplum?

надо спросить у вашего кассандра инженера, можно ли (и когда) использовать COPY TO, а дальше уже писать скрипты, или задачки для эйрфлоу или что там у вас

источник

11:35пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

этот подход выгружает файл на локальный диск, а дальше загружаете его в ПГ

источник

11:35пожаловаться #8

RY

Ruslan515 Y in Data Engineers

Anton Zadorozhniy

надо спросить у вашего кассандра инженера, можно ли (и когда) использовать COPY TO, а дальше уже писать скрипты, или задачки для эйрфлоу или что там у вас

👌

источник

11:36пожаловаться #9

OI

Oleg Ilinsky in Data Engineers

Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)

источник

14:51пожаловаться #10

OI

Oleg Ilinsky in Data Engineers

Oleg Ilinsky

Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)

просто мне кажется, что выбор между увеличением таймаута или отключением бродкаста это что-то вроде выбора из двух стульев

источник

14:53пожаловаться #11

NN

No Name in Data Engineers

Oleg Ilinsky

Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)

А нельзя таким пользователям а-та-та присылать за неадекватные бродкасты?

источник

15:07пожаловаться #12

OI

Oleg Ilinsky in Data Engineers

Ну они только sql через JDBC пишут. Они даже не в курсе, что там внутри спарк) BroadCast он сам делает

источник

15:08пожаловаться #13

NN

No Name in Data Engineers

Oleg Ilinsky

Ну они только sql через JDBC пишут. Они даже не в курсе, что там внутри спарк) BroadCast он сам делает

А что, у них какие-то дикие объемы данных автобродкастятся? Там же, по идее, по умолчанию только < 10 Мб

источник

15:11пожаловаться #14

OI

Oleg Ilinsky in Data Engineers

да вот немного должно быть
Дефолтные значения я не менял, но спарк почему-то в 300 секунд не укладывается и падает с таймаутом. Я ща пока убрал бродкаст джоин, посмотрим, что скажут)

источник

15:12пожаловаться #15

OI

Oleg Ilinsky in Data Engineers

хм
а мб это потому что статистики с хайвовых таблиц не обновлялись никогда?)

источник

15:13пожаловаться #16

NN

No Name in Data Engineers

Oleg Ilinsky

хм
а мб это потому что статистики с хайвовых таблиц не обновлялись никогда?)

Мне кажется, что это никак не аффектит