Size: a a a

2021 August 30

SI

Sergey Ivanychev in Moscow Spark
да, согласен, но все равно это пахнет костылем, конечно
источник

NN

No Name in Moscow Spark
А вряд ли есть сейчас бескостыльное решение.
источник

VN

Viacheslav Nefedov in Moscow Spark
Юзаем
источник

VN

Viacheslav Nefedov in Moscow Spark
Много мелких батчей, которые вынимаются из Кафки/кролика, айрфло не подходит
источник

VN

Viacheslav Nefedov in Moscow Spark
Сейчас делаем для пакетов, может чем-то удобнее, чем айрфло, а может и те же яйца вид сбоку
источник

VV

Vladislav Verba in Moscow Spark
Я вот заметил что там и с зависимостями проблемы решены, и сенсоры человеческие и gui с логами и мониторингом и прям конфетку обещают. А вот где эта штука уступала бы айрфло - не пишут гады
источник

VN

Viacheslav Nefedov in Moscow Spark
с зависимостями попроще, да, там экзекьюторы отдельно, у меня вообще в отдельных контейнерах живут. Сенсоры - да, чуть ли не под стриминг подходят. У нас так и делают, каждые 15 секунд вынимают из очередей что накопилось. Про гуй - ну не знаю, на любителя
источник

VN

Viacheslav Nefedov in Moscow Spark
мы обратно на айрфло не собираемся, для нас важна частая обработка операций
источник

VN

Viacheslav Nefedov in Moscow Spark
свои нюансы везде есть. Попробовали большие объемы данных гонять между отдельными тасками (солидами) - дагстеру стало очень плохо. В общем, как везде
источник

VV

Vladislav Verba in Moscow Spark
А плохо с чем стало? Дефолтный io manager не выводит по времени?
источник

VN

Viacheslav Nefedov in Moscow Spark
плохо становится в первую очередь с graphQL сервером
источник

VN

Viacheslav Nefedov in Moscow Spark
там через веб-апи органичен объём пакетов
источник

VN

Viacheslav Nefedov in Moscow Spark
в общем, большие данные между тасками как в айрфло - лучше не гонять
источник

VV

Vladislav Verba in Moscow Spark
Просто я не понимаю что в дагстере значит между тасками? В айрфло понятно - не гонять через xcom. А в дагстере я думал что достаточно прописать iomanager, сериализующий и записывающий данные в s3 и все ок.  Правильно я понял, что он именно при сериализации через iomanager засирает dagit, а если делать сохранение вручную внутри солида то все ок?
источник

Р

Рамик in Moscow Spark
Всем привет!  как правильно решить проблемы с таблицами которые перезаписываются во время выполнения операций над этими таблицами sparkом (ругается на паркет файлы которые перезаписались) ?
одним из решений является REFRESH TABLE, но в какой момент его прописать, чтобы она выполнилась именно в момент обращения к таблице ?
источник

Р

Рамик in Moscow Spark
не спарк стриминг
источник

ЕГ

Евгений Глотов... in Moscow Spark
Try catch повесить
источник

ЕГ

Евгений Глотов... in Moscow Spark
Либо не запускать запросы на чтение, пока данные перезаписываются, по времени разделить
источник

Р

Рамик in Moscow Spark
это не решение, функционал работает +- 24 часа , и я не знаю точное время обновления таблиц
источник

Р

Рамик in Moscow Spark
а это как?
не совсем понял
источник