Телеграмм чат группы hadoopusers страница 3244

Как правильно оценить стоимость запроса в Presto, если их сотни? Если просто гонять в выделенном кластере, то цифры будут отличаться от реальности, где идёт борьба с другими запросами за ресурсы.

источник

18:34пожаловаться #6

No Name in Data Engineers

Блин, что я пропустил? (

источник

19:42пожаловаться #7

Alena Korogodova in Data Engineers

No Name

Блин, что я пропустил? (

Интерактивный спам)

источник

19:54пожаловаться #8

No Name in Data Engineers

Alena Korogodova

Интерактивный спам)

Захватывающе, наверное

источник

20:01пожаловаться #9

Maksim Batsiuk in Data Engineers

народ,нужен совет,подскажите как лучше буфер реализовать, читаю из kafka сообщения и записываю в hadoop. Проблема в том, что от содержимого сообщения зависит в какой каталог его записывать, сообщения очень маленькие и если писать потоком по одному сообщению это в несколько тысяч раз тормозит приложение, так как из kafka в секунду вычитывается по 5тыс сообщений, пртлоление не успевает их сохранять по штучно за сек, хочу копить буфер из 10тыс и потом записывать. пробовал сохранять в map где ключ это путь, а значение это текстовая строка, в которую дописываю текст если путь совпадает, пока не получу все 10тыс сообщений,но приложение опять зависает,не успевает в сек 5тыс сообщений уложить в map

источник

21:04пожаловаться #10

Sergey Shushkov in Data Engineers

М, а не проще тогда горячии данные сохранять на хдфс и потом отдельной джобой распределять по топикам, если такой большой поток.

источник

22:22пожаловаться #11

Maksim Batsiuk in Data Engineers

Sergey Shushkov

сохранять в хадуп одним файлом, а потом уже тримить этот файл и раскладывать по каталогам?

источник

22:25пожаловаться #12

Sergey Shushkov in Data Engineers

Не обязательно одним, но в целом да.

источник

22:26пожаловаться #13

Maksim Batsiuk in Data Engineers

Sergey Shushkov

Не обязательно одним, но в целом да.

я тоже думал этот вариант, предложу команде как запасной вариант

источник

22:37пожаловаться #14

Sergey Shushkov in Data Engineers

Maksim Batsiuk

я тоже думал этот вариант, предложу команде как запасной вариант

Еще есть вариант также через кафку стримы просто пихать в отдельные топики и потом уже их консумерами пихать по каталогам. Впринцепи даже текущий код переиспользуете.

источник

22:39пожаловаться #15

Maksim Batsiuk in Data Engineers

Sergey Shushkov

я тоже думал про это, но там уже на начальном этапе где-то 100 топиков тогда придётся создавать, из-за нехватки опыта не знаю приемлемо ли это

источник

22:42пожаловаться #16

Denis Tsvetkov in Data Engineers

а может вычитать батч из кафки, привести к KeyValue виду типа message_type : message и потом сохранить с partition by ?

источник

22:43пожаловаться #17

Denis Tsvetkov in Data Engineers

а, тут же не уточняется, чем именно пишется, я почему-то предположил, что спарк...

источник

22:46пожаловаться #18

Maksim Batsiuk in Data Engineers

Denis Tsvetkov

а, тут же не уточняется, чем именно пишется, я почему-то предположил, что спарк...

без спарка

источник

23:14пожаловаться #19

nasdaq nice in Data Engineers

Кто-нибудь работал с Primavera P6 ? как думаете сколько будет стоить создать её клон?

источник

23:19пожаловаться #20