Size: a a a

2021 October 03

GP

Grigory Pomadchin in Data Engineers
или прост)0
источник

ДА

Денис Ананьев... in Data Engineers
без континуса сам спарк в доке говорит что у них латенси минимум 100 мс, а у флинка десятки
источник

GP

Grigory Pomadchin in Data Engineers
ну это ясно изаа бачевой природы
источник

T

T in Data Engineers
Да в основном из за нее, из этого вытекает что адопшен в компании сильно больше -> если я уйду легче будет найти того кто это будет поддерживать.

Сейчас на скале дата инженерю похоже ток я и то потому что я сам себе команда
источник

GP

Grigory Pomadchin in Data Engineers
Так и подумал ага
источник

T

T in Data Engineers
P.s я там все ещё ищу инжа к себе в команду, там почти полностью стриминг задачи и перла будет минимум. Подробности в датажобс фиде.
Сорян за рекламу
источник

VP

Vitaly Pismarev in Data Engineers
В статье выше вот такой абзац есть.

"From the perspective of technical development, the simulation of stream computing based on batch computing has some technical limitations, which may be difficult to break. However, Flink shows better scalability because it simulates batch computing based on stream computing. Alibaba decided to use Flink to implement a unified and general-purpose big data engine in the long term."

Это они лейтенси имели ввиду или ещё что-то? Как то самое вкусное то не раскрыли )
источник

VP

Vitaly Pismarev in Data Engineers
Ну и про масштабируемость тоже не понял...
источник

GP

Grigory Pomadchin in Data Engineers
Ну у континуса был ограниченый апи на релизе; не было агрегатов и тп
источник

VP

Vitaly Pismarev in Data Engineers
Просто постоянно слышу про то что спарк это натянутые батчи на стриминг, а флинк наоборот и поэтому флинк лучше. Но найти бы объяснение чем это лучше
источник

VP

Vitaly Pismarev in Data Engineers
Есть наверняка класс задач где 100мс отклик это многовато и нужно быстрее, но чёт кажется что это прям редкость...
источник

N

Nikolay in Data Engineers
а как флинк внутри делает стрим процессинг? например, если нужно группировку по ключу сделать
источник

GP

Grigory Pomadchin in Data Engineers
я о континусе
батчи тут 'хуже' изза того что есть делей и бекпрешша
источник

VP

Vitaly Pismarev in Data Engineers
источник
2021 October 04

А

Алексей in Data Engineers
где то выше было обсуждение, что флинк использует long poling под капотом, что дает результат близко к реалтайму, вместо фиксированным микробатчей в спарке
источник

ES

Evgeny Sanevich in Data Engineers
Подскажите пожалуйста, в бакете minio нужно хранить много маленьких файлов. Minio бежит в кластере на нескольких нодах. Будет ли эффективно просто все файлы хранить плоско в бакете или же лучше разбить бакет на директории? Планируется запись и чтение по одному файлу, запрос на листинг не требуется.
источник

N

Nikolay in Data Engineers
Спасибо. Складывается впечатление ,что по спарку вот много специалистов , а по флинку на порядок меньше.  Интересно почему так
источник

ЕГ

Евгений Глотов... in Data Engineers
Спарк делает spark.read.format("kafka").load()😆
источник

ЕГ

Евгений Глотов... in Data Engineers
А флинк ещё устанавливать надо)
источник

NN

No Name in Data Engineers
Мне кажется, задач на стриминг гораздо меньше.
Ну и, опять же, в спарке у нас есть питон и SQL, что снижает входной порог, а у флинка джавка.
источник