Size: a a a

2019 May 28

DG

Denis Gabaydulin in Moscow Spark
Честый тест,монтировать каждый раз заново.
источник

AA

Anton Alekseev in Moscow Spark
Вообще да, там есть кэш при монтировании указывается. Думаете в нем дело? Я и кластер рестартовал на всякий.
источник

AA

Anton Alekseev in Moscow Spark
правда один раз
источник

AA

Anton Alekseev in Moscow Spark
Denis Gabaydulin
Честый тест,монтировать каждый раз заново.
окей, буду пробовать
источник

AA

Anton Alekseev in Moscow Spark
Или лучше просто отключу кэш при монтировании
источник

DG

Denis Gabaydulin in Moscow Spark
Еще интересно оттрассировать вызовы к s3 апи, но я хз как это сделать)
источник

AA

Anton Alekseev in Moscow Spark
Вот на что приходится идти, когда у тебя двоеточие в путях появляется))
источник

GP

Grigory Pomadchin in Moscow Spark
Anton Alekseev
Или лучше просто отключу кэш при монтировании
попробуй, инетресно будет
я подозреваю они тупо кешат сразу первые н обектов / папок
или то что ты пролистил

а потом работают как обычно
источник

GP

Grigory Pomadchin in Moscow Spark
типа на скейле разницы не будет или будет только хуже когда ты упрешься в иопсы
источник

AA

Anton Alekseev in Moscow Spark
Grigory Pomadchin
попробуй, инетресно будет
я подозреваю они тупо кешат сразу первые н обектов / папок
или то что ты пролистил

а потом работают как обычно
отключил, все равно file быстрее. Ну, главное что не медленнее:)
источник

GP

Grigory Pomadchin in Moscow Spark
Anton Alekseev
отключил, все равно file быстрее. Ну, главное что не медленнее:)
+
источник

EV

Eduard Vlasov in Moscow Spark
А по что эти пляски с fuse, позвольте спросить?
источник

AA

Anton Alekseev in Moscow Spark
Eduard Vlasov
А по что эти пляски с fuse, позвольте спросить?
Надо путь к csv с двоеточием прочитать. Через симлинк и моунт пилю воркэроунд.
источник

EV

Eduard Vlasov in Moscow Spark
жесть какая
источник

GP

Grigory Pomadchin in Moscow Spark
мде
источник

EV

Eduard Vlasov in Moscow Spark
источник
2019 May 30

KS

Kostya Shchetkin in Moscow Spark
Всем привет! в  Pandas_udf апплается sklearn моделька. udf-ка работает корректно, но когда запускаю на всем датафрейме падаю с executor.memory overhead-ом. Кручу arrow батч сайз, кол-во партиций и кол-во памяти. Чет пока не выходит. Никто не сталкивался?
источник

KS

Kostya Shchetkin in Moscow Spark
источник

KS

Kostya Shchetkin in Moscow Spark
функция "features"
источник

ЕГ

Евгений Глотов... in Moscow Spark
А насколько сильно крутили батч сайз?
источник