Телеграмм чат группы hadoopusers страница 3259

2021 February 17

GP

Grigory Pomadchin in Data Engineers

В Джобсе вообще обсуждали уже это, можно там и продолжить

источник

17:55пожаловаться #1

НК

Николай Крупий... in Data Engineers

E T

Ребят, а есть ли румы по Data Engineering в clubhouse ?

Всё что нахожу по дата теме, сюда выдаваю https://t.me/data_events

Data online events & Moscow meetups

Мск и онлайн ивенты про Big data, DE, AI, ML, DS, DB, HL, etc.

Для связи: @NikolayKrupiy @Ajvol @Boyadzhi

Обсуждение: https://t.me/joinchat/AnCpwUXim_ej4VsU37hHKA

См также @agile_events

источник

18:53пожаловаться #2

YL

Yuri Lyulchenko in Data Engineers

Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?

источник

19:37пожаловаться #3

e

er@essbase.ru in Data Engineers

Народ, что можно взять из дистрибутивов для обучения ?

источник

21:34пожаловаться #4

GP

Grigory Pomadchin in Data Engineers

er@essbase.ru

Народ, что можно взять из дистрибутивов для обучения ?

ванилу например

источник

21:35пожаловаться #5

AB

Andrey Bel in Data Engineers

er@essbase.ru

Народ, что можно взять из дистрибутивов для обучения ?

если лайтово то клоудера

источник

21:35пожаловаться #6

AB

Andrey Bel in Data Engineers

хортон вроде сейчас мало юзают - по крайней мере сложилось такое впечатление, к тому же они же смержились условно))

источник

21:36пожаловаться #7

e

er@essbase.ru in Data Engineers

Andrey Bel

если лайтово то клоудера

Она сейчас закрыта для скачивания 😢

источник

21:38пожаловаться #8

AB

Andrey Bel in Data Engineers

er@essbase.ru

Она сейчас закрыта для скачивания 😢

о блин - я чтото слышал про платные темы но не знал что так серьезно

источник

21:38пожаловаться #9

AB

Andrey Bel in Data Engineers

er@essbase.ru

Она сейчас закрыта для скачивания 😢

поищи варики на докере - недавно осенью видел кучу образов

источник

21:38пожаловаться #10

UR

Uncle Ruckus in Data Engineers

Yuri Lyulchenko

Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?

А зачем вам И флинк И кафка, если это CEP (ESP)&

источник

21:45пожаловаться #11

UR

Uncle Ruckus in Data Engineers

Задачка сугубо и исключительно на флинк. Вообще если стоит вопрос "что выбрать", то всегда ответ такой: если скорее потоковая обработка чем пакетная - флинк. Если скорей пакетная чем потоковая - спарк

источник

21:47пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

er@essbase.ru

Народ, что можно взять из дистрибутивов для обучения ?

EMR

источник

22:15пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Yuri Lyulchenko

Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?

А какую бизнес логику вы хотите делать, как часто она меняется, кто ее определяет?

источник

22:16пожаловаться #14

e

er@essbase.ru in Data Engineers

Anton Zadorozhniy

EMR

Ох. Это облако. Да , наверное выберу его, раз нет ничего другого.

источник

22:17пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers