Size: a a a

2021 February 11

AK

Alena Korogodova in Data Engineers
Ещё и мы сами должны их спам ссылки находить...
источник

GP

Grigory Pomadchin in Data Engineers
я б даж не додумался искать в интернете
источник

GP

Grigory Pomadchin in Data Engineers
п окартине
источник

GP

Grigory Pomadchin in Data Engineers
лень
источник

OA

Oleksandr Averchenko in Data Engineers
Nikita Blagodarnyy
гугланешь в картинках, найдешь профиль вк, а там в описании-опа, ссылка.
А там 1xbet
источник

KS

K S in Data Engineers
Как правильно оценить стоимость запроса в Presto, если их сотни? Если просто гонять в выделенном кластере, то цифры будут отличаться от реальности, где идёт борьба с другими запросами за ресурсы.
источник

NN

No Name in Data Engineers
Блин, что я пропустил? (
источник

AK

Alena Korogodova in Data Engineers
No Name
Блин, что я пропустил? (
Интерактивный спам)
источник

NN

No Name in Data Engineers
Alena Korogodova
Интерактивный спам)
Захватывающе, наверное
источник

MB

Maksim Batsiuk in Data Engineers
народ,нужен совет,подскажите как лучше буфер реализовать, читаю из kafka сообщения и записываю в hadoop. Проблема в том, что от содержимого сообщения зависит в какой каталог его записывать, сообщения очень маленькие и если писать потоком по одному сообщению это в несколько тысяч раз тормозит приложение, так как из kafka в секунду вычитывается по 5тыс сообщений, пртлоление не успевает их сохранять по штучно за сек, хочу копить буфер из 10тыс и потом записывать. пробовал сохранять в map где ключ это путь, а значение это текстовая строка, в которую дописываю текст если путь совпадает, пока не получу все 10тыс сообщений,но приложение опять зависает,не успевает в сек 5тыс сообщений уложить в map
источник

SS

Sergey Shushkov in Data Engineers
М, а не проще тогда горячии данные сохранять на хдфс и потом отдельной джобой распределять по топикам, если такой большой поток.
источник

MB

Maksim Batsiuk in Data Engineers
Sergey Shushkov
М, а не проще тогда горячии данные сохранять на хдфс и потом отдельной джобой распределять по топикам, если такой большой поток.
сохранять в хадуп одним файлом, а потом уже тримить этот файл и раскладывать по каталогам?
источник

SS

Sergey Shushkov in Data Engineers
Не обязательно одним, но в целом да.
источник

MB

Maksim Batsiuk in Data Engineers
Sergey Shushkov
Не обязательно одним, но в целом да.
я тоже думал этот вариант, предложу команде как запасной вариант
источник

SS

Sergey Shushkov in Data Engineers
Maksim Batsiuk
я тоже думал этот вариант, предложу команде как запасной вариант
Еще есть вариант также через кафку стримы просто пихать в отдельные топики и потом уже их консумерами пихать по каталогам. Впринцепи даже текущий код переиспользуете.
источник

MB

Maksim Batsiuk in Data Engineers
Sergey Shushkov
Еще есть вариант также через кафку стримы просто пихать в отдельные топики и потом уже их консумерами пихать по каталогам. Впринцепи даже текущий код переиспользуете.
я тоже думал про это, но там уже на начальном этапе где-то 100 топиков тогда придётся создавать, из-за нехватки опыта не знаю приемлемо ли это
источник

DT

Denis Tsvetkov in Data Engineers
а может  вычитать батч из кафки, привести к KeyValue виду типа message_type : message и потом сохранить с partition by ?
источник

DT

Denis Tsvetkov in Data Engineers
а, тут же не уточняется, чем именно пишется, я почему-то предположил, что спарк...
источник

MB

Maksim Batsiuk in Data Engineers
Denis Tsvetkov
а, тут же не уточняется, чем именно пишется, я почему-то предположил, что спарк...
без спарка
источник

nn

nasdaq nice in Data Engineers
Кто-нибудь работал с Primavera P6 ? как думаете сколько будет стоить создать её клон?
источник