Size: a a a

2021 September 06

AE

Alexey Evdokimov in Data Engineers
нууу, в итоговых таблицах миллионы записей, да и консюмятся они в общем случае неоднократно
источник

AZ

Anton Zadorozhniy in Data Engineers
миллионы записей это вообще не о чем, а если ее читать параллельно - сработает sync scan который прочитает их с диска один раз, а потом раздаст результаты через общую память всем воркерам которым нужна эта таблица
источник

AE

Alexey Evdokimov in Data Engineers
щас пока у меня это выглядит как output.template='prefix_{partNo}'  в настройках модуля, а потом пишется контекстная/частичная схема для каждого 'prefix_00N', что несколько уродливо.

ежли я делаю модуль хранимкой, мне непонятно как в SQL выразить такое безобразие
источник

AE

Alexey Evdokimov in Data Engineers
хе. или мождет объяснять, что хранимка внутри себя делает типа CREATE TABLE?
источник

AZ

Anton Zadorozhniy in Data Engineers
такие хранимки точно антипаттерн, наши табличные операторы stateless
источник

AE

Alexey Evdokimov in Data Engineers
дык. это понятно
источник

AE

Alexey Evdokimov in Data Engineers
но писать SELECT * FROM module(input, params) INTO output мне всё же кажется приятнее чем CALL module(input, output, params)
источник

AE

Alexey Evdokimov in Data Engineers
буду подумать
источник

AZ

Anton Zadorozhniy in Data Engineers
тогда это будет INSERT SELECT FROM module(input, params), ну или MERGE  или UPDATE, что вам там по логике нужно
источник

AE

Alexey Evdokimov in Data Engineers
ну пока что вот так:

select_stmt
: K_SELECT what_expr
  ( K_FROM from_scope )?
  ( K_WHERE where_expr )?
  K_INTO ds_name
;
from_scope
: from_item ( COMMA from_item )?
;
from_item
: table_name
| union_expr
| join_expr
;
источник

AZ

Anton Zadorozhniy in Data Engineers
ну норм
источник

AZ

Anton Zadorozhniy in Data Engineers
у нас кстати если в протоколе запихнуть последовательность стейтментов так что точка с запятой начинается с новой строки - база их все получит и запустит параллельно (если зависимости нет) 😊
источник

AE

Alexey Evdokimov in Data Engineers
ну вот тут для каждого from_item операция параллельно запустится
источник

AZ

Anton Zadorozhniy in Data Engineers
тогда они и чтения дисковые сэкономят, если по таблицам пересекаются
источник

DP

Dmitry Peshekhonov in Data Engineers
Всем привет!
вопрос по гугловым Dataflow и PubSub - как правильно делается динамический роутинг сообщений ?

PubsubIO.Write.to(String topic) требует, чтобы выходной топик был известен заранее, уже при создании пайплайна.

сейчас есть джоба, которая стримит все сообщения в один топик.
есть хотелка чтобы топик резолвился динамически в рантайме, в зависимости от значения одного из полей выходного сообщения.
кто-нибудь делал что-то похожее ?
источник

T

T in Data Engineers
источник

K

KrivdaTheTriewe in Data Engineers
Поставил тикет
источник

T

T in Data Engineers
источник

T

T in Data Engineers
Грише?
источник

K

KrivdaTheTriewe in Data Engineers
Гриша сам кому хочешь тикет поставит
источник