Телеграмм чат группы hadoopusers страница 1311

ну типа да, идемпотентность позволяет, даже если упадет процесс, можно рестартануть, exactly once гарантии не нужны, ну и плодить кучу топиков еще пол беды (это я про кафку), там вроде нет? удобного апи для пострения фильтрации как у apche beam

источник

15:09пожаловаться #5

Pavel Ivanovsky in Data Engineers

Типа [Final Output PCollection] = [Initial Input PCollection].apply([First Transform])
.apply([Second Transform])
.apply([Third Transform])

источник

15:10пожаловаться #6

George Gaál in Data Engineers

ну тогда я вижу только варик на kafka streams струячить

источник

15:11пожаловаться #7

Pavel Ivanovsky in Data Engineers

ну вот как раз про кафка стримс (не работал с ними доселе) , там вроде нет такого удобного апи..

источник

15:12пожаловаться #8

Alex in Data Engineers

ну на крайняк тот flink

источник

15:12пожаловаться #9

Alex in Data Engineers

map.map.filter есть
стейты тоже есть

источник

15:13пожаловаться #10

Pavel Ivanovsky in Data Engineers

Alex

ну на крайняк тот flink

спасибо, почитаю про него

источник

15:14пожаловаться #11

Alex in Data Engineers

по апи близко к спарку, но со своими заморочками

источник

15:14пожаловаться #12

Alex in Data Engineers

как уже говорил: мы гоняли beam на flink, вроде всё более-менее

источник

15:15пожаловаться #13

Pavel Ivanovsky in Data Engineers

а на spring batch не удобное апи, нельзя так просто между степами передавать поток, нужно сохронять в контексте.. + есть ограничение на размер контекста...+.не оч удобно

источник

15:16пожаловаться #14

Pavel Ivanovsky in Data Engineers

Pavel Ivanovsky

потому что он вообще не про потки а про батчи

источник

15:17пожаловаться #15

Alex in Data Engineers

тут вроде еще были люди кто флинк гонял, может кто откликнется =)

источник

15:17пожаловаться #16

Pavel Ivanovsky in Data Engineers

спасибо всем за информацию

источник

15:17пожаловаться #17

Alex in Data Engineers

эм, что-то уж совсем мимо

источник

15:48пожаловаться #18

Alex in Data Engineers

да еще и не в рабочий чат

источник

15:48пожаловаться #19

Dmitriy Pavlov in Data Engineers

Всем привет!
Тут выше были вопросы про Arenadata - так вот, я из этой компании, готов ответить на все вопросы или перенаправить к тем кто ответит 😊
Вкратце, отвечаю на то что уже задавали:
1) Мы разрабатываем, внедряем и поддерживаем платформу хранения данных на базе Greenplum, Hadoop, Clickhouse и Kafka (как все сразу так и по отдельности)
2) У нас свой Cluster Manager (Ambari скоро будет deprecated), он деплоит, обновляет, мониторит и управляет всей платформой, в том числе нативно работает с API облаков - вот тут коротенькие видосы как это работает: https://www.youtube.com/playlist?list=PLThlRr26UjnNXUuEPlarGWJIp43xVZd4X
3) Мы коммитим в OS-проекты Greenplum (в основном), Hadoop и Kafka
4) Всё что мы делаем - Open source, бинарники можно скачать на сайте, исходники на https://github.com/arenadata
5) Дизайн сайта у нас и правда отстой, знаем)

YouTube

Arenadata Demo - YouTube

источник

18:36пожаловаться #20