Size: a a a

2021 February 17

GP

Grigory Pomadchin in Data Engineers
В Джобсе вообще обсуждали уже это, можно там и продолжить
источник

НК

Николай Крупий... in Data Engineers
E T
Ребят, а есть ли румы по Data Engineering в clubhouse ?
Всё что нахожу по дата теме, сюда выдаваю https://t.me/data_events
источник

YL

Yuri Lyulchenko in Data Engineers
Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?
источник

e

er@essbase.ru in Data Engineers
Народ, что можно взять из дистрибутивов для обучения ?
источник

GP

Grigory Pomadchin in Data Engineers
er@essbase.ru
Народ, что можно взять из дистрибутивов для обучения ?
ванилу например
источник

AB

Andrey Bel in Data Engineers
er@essbase.ru
Народ, что можно взять из дистрибутивов для обучения ?
если лайтово то клоудера
источник

AB

Andrey Bel in Data Engineers
хортон вроде сейчас мало юзают - по крайней мере сложилось такое впечатление, к тому же они же смержились условно))
источник

e

er@essbase.ru in Data Engineers
Andrey Bel
если лайтово то клоудера
Она сейчас закрыта для скачивания 😢
источник

AB

Andrey Bel in Data Engineers
er@essbase.ru
Она сейчас закрыта для скачивания 😢
о блин -  я чтото слышал про платные темы но не знал что так серьезно
источник

AB

Andrey Bel in Data Engineers
er@essbase.ru
Она сейчас закрыта для скачивания 😢
поищи варики на докере -  недавно осенью видел кучу образов
источник

UR

Uncle Ruckus in Data Engineers
Yuri Lyulchenko
Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?
А зачем вам И флинк И кафка, если это CEP (ESP)&
источник

UR

Uncle Ruckus in Data Engineers
Задачка сугубо и исключительно на флинк. Вообще если стоит вопрос "что выбрать", то всегда ответ такой: если скорее потоковая обработка чем пакетная - флинк. Если скорей пакетная чем потоковая - спарк
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Народ, что можно взять из дистрибутивов для обучения ?
EMR
источник

AZ

Anton Zadorozhniy in Data Engineers
Yuri Lyulchenko
Всем привет. Может кто подскажет )) есть задача реализовать CEP. Предлагают воспользоваться Flink + Kafka.

Должно работать так. Данные с отдельных таблиц в БД через некий коннектор попадают в кафка-топики. Приложение их читает, джойнит, обогащает, в результате чего получается готовое событие по пользователю. Далее эти события записываются в локальное хранилище (state store). По каждому пользователю эти события добавляются/обновляются/удаляются - пока в итоге не будет получено целевое.

По целевым событиям необходимо выполнить определенную реакцию. Т.е. этот стор нужно опрашивать, и если по временным показателям нужно выполнить действие, то делаем.

Предполагается большой поток данных на входе, нужно горизонтально масштабироваться. То есть система должна работать в режиме кластера.

Вопрос: насколько предлагаемые технологии подходят под эту задачу?

М.б. какие-то нюансы есть при их использовании?

Или какие бест-практис решения можно взять под такую задачу?
А какую бизнес логику вы хотите делать, как часто она меняется, кто ее определяет?
источник

e

er@essbase.ru in Data Engineers
Ох. Это облако. Да , наверное выберу его, раз нет ничего другого.
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Ох. Это облако. Да , наверное выберу его, раз нет ничего другого.
Есть ещё HDinsight и Dataproc
источник

AZ

Anton Zadorozhniy in Data Engineers
Но вы все правильно поняли
источник

N

Nikita Blagodarnyy in Data Engineers
Ходят слухи, что один российский большой телеком пилит свой платный дистрибутив ходупа.
источник

N

Nikita Blagodarnyy in Data Engineers
Обещали сбердуп, теперь вот будет теледуп.
источник

AZ

Anton Zadorozhniy in Data Engineers
Молодцы, так держать
источник