Телеграмм чат группы moscowspark страница 785

Я вот заметил что там и с зависимостями проблемы решены, и сенсоры человеческие и gui с логами и мониторингом и прям конфетку обещают. А вот где эта штука уступала бы айрфло - не пишут гады

источник

16:19пожаловаться #6

Viacheslav Nefedov in Moscow Spark

с зависимостями попроще, да, там экзекьюторы отдельно, у меня вообще в отдельных контейнерах живут. Сенсоры - да, чуть ли не под стриминг подходят. У нас так и делают, каждые 15 секунд вынимают из очередей что накопилось. Про гуй - ну не знаю, на любителя

источник

16:29пожаловаться #7

Viacheslav Nefedov in Moscow Spark

мы обратно на айрфло не собираемся, для нас важна частая обработка операций

источник

16:30пожаловаться #8

Viacheslav Nefedov in Moscow Spark

свои нюансы везде есть. Попробовали большие объемы данных гонять между отдельными тасками (солидами) - дагстеру стало очень плохо. В общем, как везде

источник

16:32пожаловаться #9

Vladislav Verba in Moscow Spark

А плохо с чем стало? Дефолтный io manager не выводит по времени?

источник

16:36пожаловаться #10

Viacheslav Nefedov in Moscow Spark

плохо становится в первую очередь с graphQL сервером

источник

16:37пожаловаться #11

Viacheslav Nefedov in Moscow Spark

там через веб-апи органичен объём пакетов

источник

16:37пожаловаться #12

Viacheslav Nefedov in Moscow Spark

в общем, большие данные между тасками как в айрфло - лучше не гонять

источник

16:38пожаловаться #13

Vladislav Verba in Moscow Spark

Просто я не понимаю что в дагстере значит между тасками? В айрфло понятно - не гонять через xcom. А в дагстере я думал что достаточно прописать iomanager, сериализующий и записывающий данные в s3 и все ок. Правильно я понял, что он именно при сериализации через iomanager засирает dagit, а если делать сохранение вручную внутри солида то все ок?

источник

16:44пожаловаться #14

Рамик in Moscow Spark

Всем привет! как правильно решить проблемы с таблицами которые перезаписываются во время выполнения операций над этими таблицами sparkом (ругается на паркет файлы которые перезаписались) ?
одним из решений является REFRESH TABLE, но в какой момент его прописать, чтобы она выполнилась именно в момент обращения к таблице ?

источник

18:27пожаловаться #15

Рамик in Moscow Spark

не спарк стриминг

источник

18:27пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Try catch повесить

источник

18:36пожаловаться #17

ЕГ