Size: a a a

2020 January 14

A4

Anon 43 in Data Engineers
Dmitry Zuev
Которая ничего не умеет, сила ваша то
ну как пишут в интернетах, быстро обучают и гонят на РАБоту
источник

DZ

Dmitry Zuev in Data Engineers
Я таких в дверь гоню обычно
источник

DZ

Dmitry Zuev in Data Engineers
Примерно после вопроса про шафлинг
источник

A4

Anon 43 in Data Engineers
тогда это наверное на стоимость квалифицированных специалистов специалистов вообще не влияет?
источник

A4

Anon 43 in Data Engineers
Dmitry Zuev
Примерно после вопроса про шафлинг
в hadoop я знаю что это. Про спарк просто не помню, а времени мало было. Поэтому спрашивал здесь.
источник

DZ

Dmitry Zuev in Data Engineers
Anon 43
в hadoop я знаю что это. Про спарк просто не помню, а времени мало было. Поэтому спрашивал здесь.
Я так не думаю
источник

A4

Anon 43 in Data Engineers
ну и ладно
источник

ME

Max Efremov in Data Engineers
Dmitry Zuev
Я таких в дверь гоню обычно
Это если есть из кого выбирать)
источник

ME

Max Efremov in Data Engineers
Anon 43
в hadoop я знаю что это. Про спарк просто не помню, а времени мало было. Поэтому спрашивал здесь.
В гугле же быстрее и проще? Чем в 9 утра в чатике)
источник

ME

Max Efremov in Data Engineers
источник

DZ

Dmitry Zuev in Data Engineers
Max Efremov
Это если есть из кого выбирать)
Предлагаешь брать умственноотсталых в любом случае?
источник

DZ

Dmitry Zuev in Data Engineers
Типа инклюзивность в айти?
источник

ME

Max Efremov in Data Engineers
Dmitry Zuev
Предлагаешь брать умственноотсталых в любом случае?
Если у человека нет нужных знаний, но есть желание учиться и развиваться, то это плюс. Хотя умение гуглить базовые вопросы должно быть изначально, имхо.
источник

DZ

Dmitry Zuev in Data Engineers
Max Efremov
Если у человека нет нужных знаний, но есть желание учиться и развиваться, то это плюс. Хотя умение гуглить базовые вопросы должно быть изначально, имхо.
И он не хочет 250к на старте
источник

ME

Max Efremov in Data Engineers
Гуглить и читать доки, т.к. в ентерпрайзе может быть что-то такое, чего нет на SO
источник

OP

O. Petr in Data Engineers
А в спарке реально через стриминг получить доступ к данным из предыдущих батчей? Обработать - положить , в след батче так же положить и проверить например их объединение ?
Например поток данных вида  (ip, ts), хочется выделять сессии  и сохранять куда нить только сессии. Без отдельной инмемори никак ?
источник

R

Renarde in Data Engineers
O. Petr
А в спарке реально через стриминг получить доступ к данным из предыдущих батчей? Обработать - положить , в след батче так же положить и проверить например их объединение ?
Например поток данных вида  (ip, ts), хочется выделять сессии  и сохранять куда нить только сессии. Без отдельной инмемори никак ?
Похоже на кейс с flatMapWithState
источник

R

Renarde in Data Engineers
* на правах рекламы *
Я вот тут в своем посте это расписываю:
https://medium.com/@polarpersonal/state-storage-in-spark-structured-streaming-e5c8af7bf509
источник

R

Renarde in Data Engineers
либо, если не хочется заморачиваться со всеми этими стейтами, можно просто реализовать логику через foreachBatch по типу:
- записали батч в s3 с айдишником
- прочитали предыдущий айдишник
- склеили с текущим батчем
- записали новый батч.

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#foreachbatch
источник

N

Nikita Blagodarnyy in Data Engineers
Dmitry Zuev
Типа инклюзивность в айти?
Не инклюзивность, а дайвёрсити.
А вообще спасибо админам, что не дают ронять уровень. Чтобы не было, как в чяте одной _аналитической_субд, где людям отвечают, как элементарный sql написать, а 80% остальных вопросов в поиске не ниже 5 строки выдачи гугла.
источник