Телеграмм чат группы hadoopusers страница 1956

Если у человека нет нужных знаний, но есть желание учиться и развиваться, то это плюс. Хотя умение гуглить базовые вопросы должно быть изначально, имхо.

источник

10:53пожаловаться #13

DZ

Dmitry Zuev in Data Engineers

Max Efremov

Если у человека нет нужных знаний, но есть желание учиться и развиваться, то это плюс. Хотя умение гуглить базовые вопросы должно быть изначально, имхо.

И он не хочет 250к на старте

источник

10:53пожаловаться #14

ME

Max Efremov in Data Engineers

Гуглить и читать доки, т.к. в ентерпрайзе может быть что-то такое, чего нет на SO

источник

10:53пожаловаться #15

OP

O. Petr in Data Engineers

А в спарке реально через стриминг получить доступ к данным из предыдущих батчей? Обработать - положить , в след батче так же положить и проверить например их объединение ?
Например поток данных вида (ip, ts), хочется выделять сессии и сохранять куда нить только сессии. Без отдельной инмемори никак ?

источник

10:54пожаловаться #16

R

Renarde in Data Engineers

O. Petr

А в спарке реально через стриминг получить доступ к данным из предыдущих батчей? Обработать - положить , в след батче так же положить и проверить например их объединение ?
Например поток данных вида (ip, ts), хочется выделять сессии и сохранять куда нить только сессии. Без отдельной инмемори никак ?

Похоже на кейс с flatMapWithState

источник

11:46пожаловаться #17

R

Renarde in Data Engineers

* на правах рекламы *
Я вот тут в своем посте это расписываю:
https://medium.com/@polarpersonal/state-storage-in-spark-structured-streaming-e5c8af7bf509

Medium

State Storage in Spark Structured Streaming

Stateful operations in Spark Structured Streaming and state storage format explanation.

источник

11:47пожаловаться #18

R

Renarde in Data Engineers

либо, если не хочется заморачиваться со всеми этими стейтами, можно просто реализовать логику через foreachBatch по типу:
- записали батч в s3 с айдишником
- прочитали предыдущий айдишник
- склеили с текущим батчем
- записали новый батч.

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#foreachbatch

источник

11:50пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

Dmitry Zuev

Типа инклюзивность в айти?

Не инклюзивность, а дайвёрсити.
А вообще спасибо админам, что не дают ронять уровень. Чтобы не было, как в чяте одной _аналитической_субд, где людям отвечают, как элементарный sql написать, а 80% остальных вопросов в поиске не ниже 5 строки выдачи гугла.

источник

11:53пожаловаться #20