Телеграмм чат группы hadoopusers страница 4285

Да в основном из за нее, из этого вытекает что адопшен в компании сильно больше -> если я уйду легче будет найти того кто это будет поддерживать.

Сейчас на скале дата инженерю похоже ток я и то потому что я сам себе команда

источник

22:13пожаловаться #4

Grigory Pomadchin in Data Engineers

Так и подумал ага

источник

22:13пожаловаться #5

T in Data Engineers

P.s я там все ещё ищу инжа к себе в команду, там почти полностью стриминг задачи и перла будет минимум. Подробности в датажобс фиде.
Сорян за рекламу

источник

22:15пожаловаться #6

Vitaly Pismarev in Data Engineers

В статье выше вот такой абзац есть.

"From the perspective of technical development, the simulation of stream computing based on batch computing has some technical limitations, which may be difficult to break. However, Flink shows better scalability because it simulates batch computing based on stream computing. Alibaba decided to use Flink to implement a unified and general-purpose big data engine in the long term."

Это они лейтенси имели ввиду или ещё что-то? Как то самое вкусное то не раскрыли )

источник

22:17пожаловаться #7

Vitaly Pismarev in Data Engineers

Ну и про масштабируемость тоже не понял...

источник

22:18пожаловаться #8

Grigory Pomadchin in Data Engineers

Ну у континуса был ограниченый апи на релизе; не было агрегатов и тп

источник

22:20пожаловаться #9

Vitaly Pismarev in Data Engineers

Просто постоянно слышу про то что спарк это натянутые батчи на стриминг, а флинк наоборот и поэтому флинк лучше. Но найти бы объяснение чем это лучше

источник

22:26пожаловаться #10

Vitaly Pismarev in Data Engineers

Есть наверняка класс задач где 100мс отклик это многовато и нужно быстрее, но чёт кажется что это прям редкость...

источник

22:31пожаловаться #11

Nikolay in Data Engineers

а как флинк внутри делает стрим процессинг? например, если нужно группировку по ключу сделать

источник

22:43пожаловаться #12

Grigory Pomadchin in Data Engineers

я о континусе
батчи тут 'хуже' изза того что есть делей и бекпрешша

источник

22:55пожаловаться #13

Vitaly Pismarev in Data Engineers

https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/state/

Оно?

ci.apache.org

Working with State

Working with State # In this section you will learn about the APIs that Flink provides for writing stateful programs. Please take a look at Stateful Stream Processing to learn about the concepts behind stateful stream processing.
Keyed DataStream # If you want to use keyed state, you first need to specify a key on a DataStream that should be used to partition the state (and also the records in the stream themselves).

источник

23:07пожаловаться #14

2021 October 04

Алексей in Data Engineers

где то выше было обсуждение, что флинк использует long poling под капотом, что дает результат близко к реалтайму, вместо фиксированным микробатчей в спарке

источник

10:19пожаловаться #15

Evgeny Sanevich in Data Engineers

Подскажите пожалуйста, в бакете minio нужно хранить много маленьких файлов. Minio бежит в кластере на нескольких нодах. Будет ли эффективно просто все файлы хранить плоско в бакете или же лучше разбить бакет на директории? Планируется запись и чтение по одному файлу, запрос на листинг не требуется.

источник

10:34пожаловаться #16

Nikolay in Data Engineers

Спасибо. Складывается впечатление ,что по спарку вот много специалистов , а по флинку на порядок меньше. Интересно почему так

источник

11:47пожаловаться #17

ЕГ

Евгений Глотов... in Data Engineers

Спарк делает spark.read.format("kafka").load()😆

источник

11:48пожаловаться #18

ЕГ