Size: a a a

2020 February 25

ТС

Тимофей Смирнов... in Moscow Spark
ну можно на питоне скриптик который это чекает и в тг пишет
источник
2020 February 26

NN

Nazar Niyazov in Moscow Spark
Ещё вопрос - кто-нибудь сталкивался с тем, что счет от Амазона вышел очень большим (личный аккаунт)? Почему - буду разбираться. Больше интересуют последствие неоплаты, весь оплатить я не смогу.
источник

R

Renarde in Moscow Spark
Nazar Niyazov
Ещё вопрос - кто-нибудь сталкивался с тем, что счет от Амазона вышел очень большим (личный аккаунт)? Почему - буду разбираться. Больше интересуют последствие неоплаты, весь оплатить я не смогу.
Разок был у меня аккаунт где я недоплатил 10 баксов за s3 (тупо забыл про него). Через год вспомнил и попробовал зайти - не получилось залогиниться с комментарием «Account suspended», и я забил. Возможно за 10 долларов им лень впрягаться было, но за более крупную сумму могут и начать куда-нибудь писать
источник

N

Nickolay in Moscow Spark
Смотря на сколько большим, почитайте на хабре есть статья, про то, как поломали личный аккаунт и дальнейшие разбирательство с суппортом.(спойлер-все прошло хорошо)
источник
2020 February 27

VP

Vladimir Prus in Moscow Spark
Если в AWS/EMR, то там есть стандартные способы скейлинга - но они работают только для воркеров. Master и core узлы будут продолжать есть деньги. Можно в cloudwatch следать алерт если на кластере N часов вообще ничего не работает.
источник
2020 March 02

К

Костя in Moscow Spark
Всем привет, pyspark, есть df с udf, не понимаю что происходит, делаю следующее:

1. df = df.withColumn(udf)
2. df.cache()
3. df.select().saveAsTable()
4. df.filter().select().saveAsTable()
5. df.collect() = []

Хочу считать udf только один раз, для этого делаю cache(). Пробовал делать checkpoint, но это при этом udf пересчитывается много раз.
Почему после второго сохранения df пустой?
Почему после первого сохранения df не пустой?
Где можно поискать объяснений? спасибо
источник

DZ

Dmitry Zuev in Moscow Spark
потому что df = df.cache() нужно
источник

DZ

Dmitry Zuev in Moscow Spark
вы же декларируете даг
источник

DZ

Dmitry Zuev in Moscow Spark
а не исполняете
источник

DZ

Dmitry Zuev in Moscow Spark
исполнение ток в 3,4,5
источник

N

Nikolay in Moscow Spark
А почему вы ожидаете , что udf выполнится один раз.  Он же для каждой строки отработан . Сколько строк . Столько раз и выполнится. Даже , если будет кэш
источник

К

Костя in Moscow Spark
Nikolay
А почему вы ожидаете , что udf выполнится один раз.  Он же для каждой строки отработан . Сколько строк . Столько раз и выполнится. Даже , если будет кэш
имел ввиду один раз для строки
источник

R

Renarde in Moscow Spark
сап чат! вопрос - а кто-нибудь пробовал использовать TiDB + Ti-Spark в связке? на сайте все оч красиво расписано, но из клиентов только китайские компании
источник

К

Костя in Moscow Spark
Dmitry Zuev
потому что df = df.cache() нужно
ок, но это не меняет поведения:
после сейвов - датафрейм становится пустым.
источник

DZ

Dmitry Zuev in Moscow Spark
я так не думаю
источник

DZ

Dmitry Zuev in Moscow Spark
думаю дело в коде
источник

DZ

Dmitry Zuev in Moscow Spark
который мы так и не увидели
источник

К

Костя in Moscow Spark
Dmitry Zuev
думаю дело в коде
+, вроде локализировал проблему, поразбираюсь сам, спасибо
источник

DZ

Dmitry Zuev in Moscow Spark
источник
2020 March 05

PK

Pavel Klemenkov in Moscow Spark
Проводить Moscow Spark #10 в конце марта - начале апреля?
Анонимный опрос
52%
Да
48%
Лучше отложить
Проголосовало: 149
источник