Size: a a a

2019 May 22

GG

George Gaál in Data Engineers
но там проблем вагон и маленькая тележка. Кластеризация? только в платной. Обратная совместимость? Не, не слышал
источник

GG

George Gaál in Data Engineers
но есть крупные бизнесы, которые используют... Ну, там DINO SYSTEMS, НТВ медиа (или как их там)
источник

PI

Pavel Ivanovsky in Data Engineers
George Gaál
но есть крупные бизнесы, которые используют... Ну, там DINO SYSTEMS, НТВ медиа (или как их там)
уже нашел, читаю, не подойдет такое...
источник

GG

George Gaál in Data Engineers
ну, да, есть такое. А в чем консерн - данные по сети не хоцца гонять?
источник

PI

Pavel Ivanovsky in Data Engineers
George Gaál
ну, да, есть такое. А в чем консерн - данные по сети не хоцца гонять?
ну типа да, идемпотентность позволяет, даже если упадет процесс, можно рестартануть, exactly once гарантии не нужны, ну и плодить кучу топиков еще пол беды (это я про кафку), там вроде нет? удобного апи для пострения фильтрации как у apche beam
источник

PI

Pavel Ivanovsky in Data Engineers
Типа [Final Output PCollection] = [Initial Input PCollection].apply([First Transform])
.apply([Second Transform])
.apply([Third Transform])
источник

GG

George Gaál in Data Engineers
ну тогда я вижу только варик на kafka streams струячить
источник

PI

Pavel Ivanovsky in Data Engineers
ну вот как раз про кафка стримс (не работал с ними доселе) , там вроде нет такого удобного апи..
источник

A

Alex in Data Engineers
ну на крайняк тот flink
источник

A

Alex in Data Engineers
map.map.filter есть
стейты тоже есть
источник

PI

Pavel Ivanovsky in Data Engineers
Alex
ну на крайняк тот flink
спасибо, почитаю про него
источник

A

Alex in Data Engineers
по апи близко к спарку, но со своими заморочками
источник

A

Alex in Data Engineers
как уже говорил: мы гоняли beam на flink, вроде всё более-менее
источник

PI

Pavel Ivanovsky in Data Engineers
а на spring batch не удобное апи, нельзя так просто между степами передавать поток, нужно сохронять в контексте.. + есть ограничение на размер контекста...+.не оч удобно
источник

PI

Pavel Ivanovsky in Data Engineers
Pavel Ivanovsky
а на spring batch не удобное апи, нельзя так просто между степами передавать поток, нужно сохронять в контексте.. + есть ограничение на размер контекста...+.не оч удобно
потому что он вообще не про потки а про батчи
источник

A

Alex in Data Engineers
тут вроде еще были люди кто флинк гонял, может кто откликнется =)
источник

PI

Pavel Ivanovsky in Data Engineers
спасибо всем за информацию
источник

A

Alex in Data Engineers
эм, что-то уж совсем мимо
источник

A

Alex in Data Engineers
да еще и не в рабочий чат
источник

DP

Dmitriy Pavlov in Data Engineers
Всем привет!
Тут выше были вопросы про Arenadata - так вот, я из этой компании, готов ответить на все вопросы или перенаправить к тем кто ответит 😊
Вкратце, отвечаю на то что уже задавали:
1) Мы разрабатываем, внедряем и поддерживаем платформу хранения данных на базе Greenplum, Hadoop, Clickhouse и Kafka (как все сразу так и по отдельности)
2) У нас свой Cluster Manager (Ambari скоро будет deprecated), он деплоит, обновляет, мониторит и управляет всей платформой, в том числе нативно работает с API облаков - вот тут коротенькие видосы как это работает: https://www.youtube.com/playlist?list=PLThlRr26UjnNXUuEPlarGWJIp43xVZd4X
3) Мы коммитим в OS-проекты Greenplum (в основном), Hadoop и Kafka
4) Всё что мы делаем - Open source, бинарники можно скачать на сайте, исходники на https://github.com/arenadata
5) Дизайн сайта у нас и правда отстой, знаем)
источник