Телеграмм чат группы hadoopusers страница 1490

Всем привет! Пришло время планировать Moscow Spark #8, в связи с чем объявляется call for talks. Если у вас есть, что поведать про ваши кейсы использования Apache Spark сообществу, милости прошу в личку!

когда, где, куда слать, и вообще, если есть сайт то было бы здорово ссылку

источник

18:51пожаловаться #16

Pavel Klemenkov in Data Engineers

Dan Y

когда, где, куда слать, и вообще, если есть сайт то было бы здорово ссылку

Привет. Когда и где объявим буквально на этой неделе. Слать мне в личку, но лайн-ап на ближайший митап уже укомплектован. Но ты шли обязательно, в в этом году у нас еще один митап планируется )

источник

18:57пожаловаться #17

Dan Y in Data Engineers

Я хотел нашим сбросить, есть сотрудники в России, могут заинтересоваться

источник

19:09пожаловаться #18

panda in Data Engineers

Подскажите в чем разница Hive и Sparkа ? Или для каких задач что эффективнее работает ?

источник

19:13пожаловаться #19

Renarde in Data Engineers

всем привет. я все еще мучаюсь с выбором хранилища под юзкейс.
Смысл такой - у нас есть несколько потоков событий:
- платежи
- заказы
- еще чего-нибудь
Они льются из кафки и читаются спарком.
Дальше их нужно положить в структуру по айдишнику клиента, и апдейтить если прилетают новые значения.
Пример структуры данных:

{
  “some_user_id”:
    payments: [
       {“payment_id”: 100, “payment_value”: 120}
    ],
    orders: [
       {“order_id”: 200, “order_item”: [“something”]}
    ]
 }

Прилетающий апдейт может, например, обновить данные вот так:

{“order_id”:200, “order_item”: [“something”, ”something_else”]}

А вот реквестить эти данные снаружи уже будут с агрегацией до клиента, например как-то так:

select count(orders) from data where user_id=“some_user_id”

Получается что нужно kv-хранилище со вложенными индексами, причем хорошо масштабируемое (данных прибывает много, уже >>1TB и прирост около 0.5TB в год).
Я смотрю в сторону HBase, но кажется что у него с nested index все прямо не очень. Какое хранилище подойдет под такой кейс?

источник

19:23пожаловаться #20