Size: a a a

2019 May 12

AZ

Anton Zadorozhniy in Data Engineers
Игорь Камынин
сейчас у меня вопрос больше по поводу возможно ли в приципе подобное?. Увеличить количесвто ресурсов мы всегда успеем)
ну делать мониторинг лага это прям много движущихся частей (хотя у меня есть клиент у которого автоскейлеры стоят на лаг.. думаю если вашим потребителям данным из кассандры не важна задержка обновления данных - то батч по крону это лучший вариант
источник

ИК

Игорь Камынин in Data Engineers
KrivdaTheTriewe
Вернее на стриминг повесить триггеред ванс
почитаю. Спасибо
источник

ИК

Игорь Камынин in Data Engineers
Anton Zadorozhniy
ну делать мониторинг лага это прям много движущихся частей (хотя у меня есть клиент у которого автоскейлеры стоят на лаг.. думаю если вашим потребителям данным из кассандры не важна задержка обновления данных - то батч по крону это лучший вариант
да, задержка не так важна. Спасибо
источник
2019 May 13

CO

Chern Oleksander in Data Engineers
Все привет, ищу человека, который имеет опыт в GameDev для создание DataDriven и создание аналитической БД.
Пишите в лычку. Всем спасибо !
источник

YI

Yukari I in Data Engineers
Data-driven gamedev? What kind of product do you developing?
источник

N

Nikolay in Data Engineers
Подскажите про каппа архитектуру. Так я понял , что мы убираем батчин лэйр и оставляем только стриминг лэйр. И в случае необходимости запускаем репроцессинг лога. Но ведь лог будет огромен. Вот про размер этого лога и вопрос. Может подразумевается, что мы считаем агрегаты и как бы делаем репроцессинг не всего лога ?
источник

A

Alex in Data Engineers
Yukari I
Data-driven gamedev? What kind of product do you developing?
да это же классика: накидаем в A/B экспериментов, одним покажем зеленые танцики, вторым красные, какой эксперимент выиграет пойдет для всех в прод в влед релизе =)
источник

A

Alex in Data Engineers
на выходе за счёт хомячков всё скатывается в ниграбельую…… но вот бабло приносит
источник

GG

George Gaál in Data Engineers
Nikolay
Подскажите про каппа архитектуру. Так я понял , что мы убираем батчин лэйр и оставляем только стриминг лэйр. И в случае необходимости запускаем репроцессинг лога. Но ведь лог будет огромен. Вот про размер этого лога и вопрос. Может подразумевается, что мы считаем агрегаты и как бы делаем репроцессинг не всего лога ?
нет. про агрегаты речи не шло (по крайней мере в общем случае)
источник

MB

Mikhail Butalin in Data Engineers
Yukari I
Data-driven gamedev? What kind of product do you developing?
do лишнее ;)
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Подскажите про каппа архитектуру. Так я понял , что мы убираем батчин лэйр и оставляем только стриминг лэйр. И в случае необходимости запускаем репроцессинг лога. Но ведь лог будет огромен. Вот про размер этого лога и вопрос. Может подразумевается, что мы считаем агрегаты и как бы делаем репроцессинг не всего лога ?
Каппа архитектура (как и лямбда до нее), по моему мнению 🙂 это не архитектура в том смысле что описывает компоненты и их взаимодействие, а архитектурная концепция вокруг определенного датафлоу, в этом смысле то как вы оптимизируете рекавери, расчеты неаддитивных агрегатов - это детали реализации
источник

AZ

Anton Zadorozhniy in Data Engineers
в этом смысле если ваша бизнес-логика написана только под стриминг - значит у вас “каппа-архитектура”, и делайте чекпоинты, агрегаты или какие-то еще оптимизации как вам удобнее
источник

В

Влад in Data Engineers
МОжет кто может подсказать, почему все валится?

спарк-сабмит — мастер к8s —мод клиент

ТО, что он роняет экзекьюторы, я вижу, но почему он так делает, не понимаю
источник

A

Alex in Data Engineers
там же написано: пытается зарегать внешний шафл сервер, но не получается
источник

A

Alex in Data Engineers
как хотфикс можешь сразу попробовать без него сразу
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
вполне возможно до конца еще и не поддерживается он
источник

A

Alex in Data Engineers
https://banzaicloud.com/blog/spark-k8s-internals/

--conf spark.shuffle.service.enabled=true \
--conf spark.kubernetes.shuffle.namespace=default \
--conf spark.kubernetes.shuffle.labels="<shuffle selector labels>" \


если включен, то пару параметров еще нужно
источник

N

Nikolay in Data Engineers
George Gaál
нет. про агрегаты речи не шло (по крайней мере в общем случае)
Т.е сначала работы системы лог перепроцессим ?
источник

GG

George Gaál in Data Engineers
Nikolay
Т.е сначала работы системы лог перепроцессим ?
Ну, если нет чекпойнтов, то да
источник