Телеграмм чат группы hadoopusers страница 4151

нууу, в итоговых таблицах миллионы записей, да и консюмятся они в общем случае неоднократно

17:05пожаловаться #1

миллионы записей это вообще не о чем, а если ее читать параллельно - сработает sync scan который прочитает их с диска один раз, а потом раздаст результаты через общую память всем воркерам которым нужна эта таблица

17:06пожаловаться #2

щас пока у меня это выглядит как output.template='prefix_{partNo}' в настройках модуля, а потом пишется контекстная/частичная схема для каждого 'prefix_00N', что несколько уродливо.

ежли я делаю модуль хранимкой, мне непонятно как в SQL выразить такое безобразие

17:11пожаловаться #3

хе. или мождет объяснять, что хранимка внутри себя делает типа CREATE TABLE?

17:11пожаловаться #4

такие хранимки точно антипаттерн, наши табличные операторы stateless

17:12пожаловаться #5

дык. это понятно

17:12пожаловаться #6

но писать SELECT * FROM module(input, params) INTO output мне всё же кажется приятнее чем CALL module(input, output, params)

17:17пожаловаться #7

буду подумать

17:17пожаловаться #8

тогда это будет INSERT SELECT FROM module(input, params), ну или MERGE или UPDATE, что вам там по логике нужно

17:18пожаловаться #9

ну пока что вот так:

select_stmt
: K_SELECT what_expr
( K_FROM from_scope )?
( K_WHERE where_expr )?
K_INTO ds_name
;
from_scope
: from_item ( COMMA from_item )?
;
from_item
: table_name
| union_expr
| join_expr
;

17:24пожаловаться #10

ну норм

17:25пожаловаться #11

у нас кстати если в протоколе запихнуть последовательность стейтментов так что точка с запятой начинается с новой строки - база их все получит и запустит параллельно (если зависимости нет) 😊

17:25пожаловаться #12

ну вот тут для каждого from_item операция параллельно запустится

17:48пожаловаться #13

тогда они и чтения дисковые сэкономят, если по таблицам пересекаются

17:50пожаловаться #14

Dmitry Peshekhonov in Data Engineers

Всем привет!
вопрос по гугловым Dataflow и PubSub - как правильно делается динамический роутинг сообщений ?

PubsubIO.Write.to(String topic) требует, чтобы выходной топик был известен заранее, уже при создании пайплайна.

сейчас есть джоба, которая стримит все сообщения в один топик.
есть хотелка чтобы топик резолвился динамически в рантайме, в зависимости от значения одного из полей выходного сообщения.
кто-нибудь делал что-то похожее ?