Size: a a a

2020 March 09

AZ

Anton Zadorozhniy in Data Engineers
вообще да, кажется что бим и датафлоу модель это ключ к решению это задачи в обобщенном виде, вопрос только как заставить сатанистов писать на биме :)
источник

S

Serg Slipushenko in Data Engineers
мы сейчас смотрим на кубфлоу для ркшения похожей проблемы
источник

A

Alex in Data Engineers
Это уже другая проблема :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
ну то понятно... а можно абстрактный юзкейс, может быть полезным как сервис?
feature engineering хочется написать один раз и чтобы это работало сразу и для пакетного пайплайна/обучения/ретроскоринга, так и для онлайн сервинга
источник

BK

Brusе Kawabata in Data Engineers
Чтобы стейт от стрима сджойнить с самим стримом его необходимо куда-то сохранить сначала?
источник

BK

Brusе Kawabata in Data Engineers
В спарке
источник
2020 March 10

R

Renarde in Data Engineers
Brusе Kawabata
Чтобы стейт от стрима сджойнить с самим стримом его необходимо куда-то сохранить сначала?
Стейт от стрима на данный момент сохраняется в чекпоинте, если я не ошибаюсь
источник

R

Renarde in Data Engineers
соответственно если чекпоинт задан, то простой перезапуск стрима должен подцепить последний стейт
источник

R

Renarde in Data Engineers
Renarde
соответственно если чекпоинт задан, то простой перезапуск стрима должен подцепить последний стейт
проверил - должен подцепить из checkpointLocation, но сразу пара важных но:
- checkpointLocation скорее всего хранится на S3, который зачастую недостаточно persistent и может не записать самый последний апдейт и прочие проблемы Object Storage, читать вот тут - https://spark.apache.org/docs/2.3.0/cloud-integration.html
- данные стейта хранятся не самым оптимальным образом, поэтому если стейт очень жирный (скажем, терабайты), могут быть проблемы с производительностью
источник

R

Renarde in Data Engineers
Мы пробовали играться со StateStore, наши данные в нем оказались слишком большими и работало это не быстро, по итогу просто апдейтили хранилище через foreachBatch
источник

T

T in Data Engineers
Renarde
проверил - должен подцепить из checkpointLocation, но сразу пара важных но:
- checkpointLocation скорее всего хранится на S3, который зачастую недостаточно persistent и может не записать самый последний апдейт и прочие проблемы Object Storage, читать вот тут - https://spark.apache.org/docs/2.3.0/cloud-integration.html
- данные стейта хранятся не самым оптимальным образом, поэтому если стейт очень жирный (скажем, терабайты), могут быть проблемы с производительностью
S3 если через emtfs писать томожно включить консистанс вью https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-consistent-view.html
источник

VS

Vitaly Savinov in Data Engineers
Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.
источник

R

Renarde in Data Engineers
Vitaly Savinov
Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.
поток апдейтов википедии:

https://github.com/renardeinside/wikiflow
источник

R

Renarde in Data Engineers
я тут его через akka-streams в кафку заворачиваю, потом можно из спарка почитать
источник

VS

Vitaly Savinov in Data Engineers
Спасибо!
источник

R

Renarde in Data Engineers
Вот еще примерчик - на питоне - поток курсов валют с oanda.com (правда надо на платформе зарегаться, но это бесплатно и без привязки карточки):

https://github.com/renardeinside/anblick
источник

VS

Vitaly Savinov in Data Engineers
Спасибо, посмотрю.
источник

SS

Sergey Shushkov in Data Engineers
На митапе есть поток создаваемых встреч.
источник

AC

Alexander Chermenin in Data Engineers
Sergey Shushkov
На митапе есть поток создаваемых встреч.
Жиденький поток будет, наверное :)
источник

R

Renarde in Data Engineers
по сути, если нужно просто потестировать функцию какую-нибудь, можно создать обычный memory stream, и локально погонять примерчики, отправляя самому себе сообщения: (честно спиздил этот подход у Jacek Laskowski):

https://github.com/renardeinside/spark-streaming-state-store-example
источник