Телеграмм чат группы moscowspark страница 267

Size: a a a

Moscow Spark

961 membersпожаловаться на группу

2020 February 25

ТС

Тимофей Смирнов... in Moscow Spark

ну можно на питоне скриптик который это чекает и в тг пишет

источник

13:35пожаловаться #1

2020 February 26

Nazar Niyazov in Moscow Spark

Ещё вопрос - кто-нибудь сталкивался с тем, что счет от Амазона вышел очень большим (личный аккаунт)? Почему - буду разбираться. Больше интересуют последствие неоплаты, весь оплатить я не смогу.

источник

14:07пожаловаться #2

Renarde in Moscow Spark

Nazar Niyazov

Разок был у меня аккаунт где я недоплатил 10 баксов за s3 (тупо забыл про него). Через год вспомнил и попробовал зайти - не получилось залогиниться с комментарием «Account suspended», и я забил. Возможно за 10 долларов им лень впрягаться было, но за более крупную сумму могут и начать куда-нибудь писать

источник

14:11пожаловаться #3

Nickolay in Moscow Spark

Смотря на сколько большим, почитайте на хабре есть статья, про то, как поломали личный аккаунт и дальнейшие разбирательство с суппортом.(спойлер-все прошло хорошо)

источник

17:03пожаловаться #4

2020 February 27

Vladimir Prus in Moscow Spark

Если в AWS/EMR, то там есть стандартные способы скейлинга - но они работают только для воркеров. Master и core узлы будут продолжать есть деньги. Можно в cloudwatch следать алерт если на кластере N часов вообще ничего не работает.

источник

14:22пожаловаться #5

2020 March 02

Костя in Moscow Spark

Всем привет, pyspark, есть df с udf, не понимаю что происходит, делаю следующее:

1. df = df.withColumn(udf)
2. df.cache()
3. df.select().saveAsTable()
4. df.filter().select().saveAsTable()
5. df.collect() = []

Хочу считать udf только один раз, для этого делаю cache(). Пробовал делать checkpoint, но это при этом udf пересчитывается много раз.
Почему после второго сохранения df пустой?
Почему после первого сохранения df не пустой?
Где можно поискать объяснений? спасибо

источник

14:40пожаловаться #6

Dmitry Zuev in Moscow Spark

потому что df = df.cache() нужно

источник

14:52пожаловаться #7

Dmitry Zuev in Moscow Spark

вы же декларируете даг

источник

14:53пожаловаться #8

Dmitry Zuev in Moscow Spark

а не исполняете

источник

14:53пожаловаться #9

Dmitry Zuev in Moscow Spark

исполнение ток в 3,4,5

источник

14:54пожаловаться #10

Nikolay in Moscow Spark

А почему вы ожидаете , что udf выполнится один раз. Он же для каждой строки отработан . Сколько строк . Столько раз и выполнится. Даже , если будет кэш

источник

14:57пожаловаться #11

Костя in Moscow Spark

Nikolay

имел ввиду один раз для строки

источник

15:00пожаловаться #12

Renarde in Moscow Spark

сап чат! вопрос - а кто-нибудь пробовал использовать TiDB + Ti-Spark в связке? на сайте все оч красиво расписано, но из клиентов только китайские компании

источник

15:01пожаловаться #13

Костя in Moscow Spark

Dmitry Zuev

потому что df = df.cache() нужно

ок, но это не меняет поведения:
после сейвов - датафрейм становится пустым.

источник

15:54пожаловаться #14

Dmitry Zuev in Moscow Spark

я так не думаю

источник

15:56пожаловаться #15