Size: a a a

2021 March 02

RY

Ruslan515 Y in Data Engineers
Anton Zadorozhniy
10М это же 10 миллиардов?
пока миллионы)
источник

AZ

Anton Zadorozhniy in Data Engineers
Ruslan515 Y
пока миллионы)
это не территория MPP, хватит обычной постгре
источник

RY

Ruslan515 Y in Data Engineers
Anton Zadorozhniy
это не территория MPP, хватит обычной постгре
ок. спасибо!
источник

AZ

Anton Zadorozhniy in Data Engineers
2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь
источник

RY

Ruslan515 Y in Data Engineers
Anton Zadorozhniy
2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь
еще раз спасибо за развернутый ответ!
источник

RY

Ruslan515 Y in Data Engineers
Anton Zadorozhniy
2. Структуру хранилища надо проектировать под ваши потребности, я бы решал пока задачу выгрузки один в один
3. промежуток надо выбирать исходя из загруженности источника и потребностей аналитики, для самых загруженных источников обычно берут CDC (у кассандры он есть, но не прям realtime, и там есть проблемы с дубликатами и порядком записей, а также изменения схемы он вроде не писал, тут надо на CD рассчитывать)
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь. Правильно понимаю, что просто пишем скрипт копирования данных из cassandra в greenplum?
источник

AZ

Anton Zadorozhniy in Data Engineers
Ruslan515 Y
4. самое простое, наверное, это COPY TO из кассандры и COPY FROM в postgresql, данных у вас копейки и все должно пролететь. Правильно понимаю, что просто пишем скрипт копирования данных из cassandra в greenplum?
надо спросить у вашего кассандра инженера, можно ли (и когда) использовать COPY TO, а дальше уже писать скрипты, или задачки для эйрфлоу или что там у вас
источник

AZ

Anton Zadorozhniy in Data Engineers
этот подход выгружает файл на локальный диск, а дальше загружаете его в ПГ
источник

RY

Ruslan515 Y in Data Engineers
Anton Zadorozhniy
надо спросить у вашего кассандра инженера, можно ли (и когда) использовать COPY TO, а дальше уже писать скрипты, или задачки для эйрфлоу или что там у вас
👌
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)
источник

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)
просто мне кажется, что выбор между увеличением таймаута или отключением бродкаста это что-то вроде выбора из двух стульев
источник

NN

No Name in Data Engineers
Oleg Ilinsky
Привет!
А подскажите, плиз
Если Spark Thrift server валится с ошбкой на timeout при BroadCastJoin на некоторые SQL запросы, то какой бест практис? Увеличивать timeout или отключать BroadCastJoin (контролировать SQL запросы, которые приходят в thrift server я не могу, собственно, как и переписывать их за пользователей)
А нельзя таким пользователям а-та-та присылать за неадекватные бродкасты?
источник

OI

Oleg Ilinsky in Data Engineers
Ну они только sql через JDBC пишут. Они даже не в курсе, что там внутри спарк) BroadCast он сам делает
источник

NN

No Name in Data Engineers
Oleg Ilinsky
Ну они только sql через JDBC пишут. Они даже не в курсе, что там внутри спарк) BroadCast он сам делает
А что, у них какие-то дикие объемы данных автобродкастятся? Там же, по идее, по умолчанию только < 10 Мб
источник

OI

Oleg Ilinsky in Data Engineers
да вот немного должно быть
Дефолтные значения я не менял, но спарк почему-то в 300 секунд не укладывается и падает с таймаутом. Я ща пока убрал бродкаст джоин, посмотрим, что скажут)
источник

OI

Oleg Ilinsky in Data Engineers
хм
а мб это потому что статистики с хайвовых таблиц не обновлялись никогда?)
источник

NN

No Name in Data Engineers
Oleg Ilinsky
хм
а мб это потому что статистики с хайвовых таблиц не обновлялись никогда?)
Мне кажется, что это никак не аффектит
источник

e

er@essbase.ru in Data Engineers
Есть задача перенести PL-SQL на hive . М.б. есть у кого ценные советы как это  лучше приготовить ? Каскад трансформационных view тут подойдёт ?
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Есть задача перенести PL-SQL на hive . М.б. есть у кого ценные советы как это  лучше приготовить ? Каскад трансформационных view тут подойдёт ?
был такой проект, HPL/SQL, но я не знаю статус
источник

AZ

Anton Zadorozhniy in Data Engineers
как архитектор я бы переделывал на микросервисы конечно, in-database процедуры без базы данных это еще хуже чем обычные процедуры в базе
источник