Телеграмм чат группы hadoopusers страница 2150

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1803 membersпожаловаться на группу

2020 March 09

AZ

Anton Zadorozhniy in Data Engineers

вообще да, кажется что бим и датафлоу модель это ключ к решению это задачи в обобщенном виде, вопрос только как заставить сатанистов писать на биме :)

источник

11:42пожаловаться #1

S

Serg Slipushenko in Data Engineers

мы сейчас смотрим на кубфлоу для ркшения похожей проблемы

источник

11:42пожаловаться #2

A

Alex in Data Engineers

Это уже другая проблема :)

источник

11:42пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

ну то понятно... а можно абстрактный юзкейс, может быть полезным как сервис?

feature engineering хочется написать один раз и чтобы это работало сразу и для пакетного пайплайна/обучения/ретроскоринга, так и для онлайн сервинга

источник

11:43пожаловаться #4

BK

Brusе Kawabata in Data Engineers

Чтобы стейт от стрима сджойнить с самим стримом его необходимо куда-то сохранить сначала?

источник

23:18пожаловаться #5

BK

Brusе Kawabata in Data Engineers

В спарке

источник

23:18пожаловаться #6

2020 March 10

R

Renarde in Data Engineers

Brusе Kawabata

Чтобы стейт от стрима сджойнить с самим стримом его необходимо куда-то сохранить сначала?

Стейт от стрима на данный момент сохраняется в чекпоинте, если я не ошибаюсь

источник

00:46пожаловаться #7

R

Renarde in Data Engineers

соответственно если чекпоинт задан, то простой перезапуск стрима должен подцепить последний стейт

источник

00:48пожаловаться #8

R

Renarde in Data Engineers

соответственно если чекпоинт задан, то простой перезапуск стрима должен подцепить последний стейт

проверил - должен подцепить из checkpointLocation, но сразу пара важных но:
- checkpointLocation скорее всего хранится на S3, который зачастую недостаточно persistent и может не записать самый последний апдейт и прочие проблемы Object Storage, читать вот тут - https://spark.apache.org/docs/2.3.0/cloud-integration.html
- данные стейта хранятся не самым оптимальным образом, поэтому если стейт очень жирный (скажем, терабайты), могут быть проблемы с производительностью

spark.apache.org

Integration with Cloud Infrastructures - Spark 2.3.0 Documentation

Introduction to cloud storage support in Apache Spark 2.3.0

источник

01:12пожаловаться #9

R

Renarde in Data Engineers

Мы пробовали играться со StateStore, наши данные в нем оказались слишком большими и работало это не быстро, по итогу просто апдейтили хранилище через foreachBatch

источник

01:15пожаловаться #10

T

T in Data Engineers

проверил - должен подцепить из checkpointLocation, но сразу пара важных но:
- checkpointLocation скорее всего хранится на S3, который зачастую недостаточно persistent и может не записать самый последний апдейт и прочие проблемы Object Storage, читать вот тут - https://spark.apache.org/docs/2.3.0/cloud-integration.html
- данные стейта хранятся не самым оптимальным образом, поэтому если стейт очень жирный (скажем, терабайты), могут быть проблемы с производительностью

spark.apache.org

Integration with Cloud Infrastructures - Spark 2.3.0 Documentation

Introduction to cloud storage support in Apache Spark 2.3.0

S3 если через emtfs писать томожно включить консистанс вью https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-consistent-view.html

источник

01:41пожаловаться #11

VS

Vitaly Savinov in Data Engineers

Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.

источник

15:40пожаловаться #12

R

Renarde in Data Engineers

Vitaly Savinov

Камрады, а подскажите плиз, есть ли бесплатные источники стриминговых данных, любых? Мне для тестовых учебных проектов. Биржевые, метео, экологические может какие-то? В инете сам ищу, но пока не очень получается.

поток апдейтов википедии:

https://github.com/renardeinside/wikiflow

renardeinside/wikiflow

Wikipedia updates streaming, transformation and visualisation - renardeinside/wikiflow

источник

15:42пожаловаться #13

R

Renarde in Data Engineers

я тут его через akka-streams в кафку заворачиваю, потом можно из спарка почитать

источник

15:42пожаловаться #14

VS

Vitaly Savinov in Data Engineers

Спасибо!

источник

15:43пожаловаться #15

R

Renarde in Data Engineers

Вот еще примерчик - на питоне - поток курсов валют с oanda.com (правда надо на платформе зарегаться, но это бесплатно и без привязки карточки):

https://github.com/renardeinside/anblick

renardeinside/anblick

Real-time foreign exchange rates visualization. Contribute to renardeinside/anblick development by creating an account on GitHub.

источник

15:44пожаловаться #16

VS

Vitaly Savinov in Data Engineers

Спасибо, посмотрю.

источник

15:48пожаловаться #17

SS

Sergey Shushkov in Data Engineers

На митапе есть поток создаваемых встреч.

источник

15:50пожаловаться #18

AC

Alexander Chermenin in Data Engineers

Sergey Shushkov

На митапе есть поток создаваемых встреч.

Жиденький поток будет, наверное :)

источник

15:51пожаловаться #19

R

Renarde in Data Engineers

по сути, если нужно просто потестировать функцию какую-нибудь, можно создать обычный memory stream, и локально погонять примерчики, отправляя самому себе сообщения: (честно спиздил этот подход у Jacek Laskowski):

https://github.com/renardeinside/spark-streaming-state-store-example

renardeinside/spark-streaming-state-store-example

Spark Structured Streaming with State Store. Contribute to renardeinside/spark-streaming-state-store-example development by creating an account on GitHub.

источник

15:51пожаловаться #20