Size: a a a

2022 January 16

GP

Grigory Pomadchin in Moscow Spark
^ потому что он (петон) стартует жвм на создании сессии
источник

GP

Grigory Pomadchin in Moscow Spark
жадно причём
источник

GP

Grigory Pomadchin in Moscow Spark
источник

v

v in Moscow Spark
А, значит норм, спасибо. Щас тогда попробую с конфигом выше запустить и глянуть, вывалится ли что-то через полтора часа.
Про то что "нельзя в программе" это видимо как раз про скалу писали.
источник

v

v in Moscow Spark
Тут вопрос в том, что делать если одна из групп будет большая?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Бить
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Смотря насколько большая
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если меньше 10млн, то стандартные кластеры схавают в принципе
источник

GP

Grigory Pomadchin in Moscow Spark
10 млн чего?
источник

GP

Grigory Pomadchin in Moscow Spark
строк по 20 гигов каждая?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Долларов конеш
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
хорошо
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

v

v in Moscow Spark
А такой еще вопрос - мне нужен самый лучший по ряду критериев.

    window = Window.partitionBy([col(MEETING_SUBJECT), col(START_DATE)]) \
       .orderBy(
       col(COMPANY_SUBJECT_COMMON).desc(),
       col(PARTICIPANTS_AND_EMPLOYEES_IN_SUBJ).desc(),
       col(PARTICIPANTS_IN_EMPLOYEES).desc(),
       col(BOOKING_DATE),
   )
   # Takes only the best match
   df = df.withColumn('rank', row_number().over(window)).filter(col('rank') == 1).drop('rank')

Тут он получается явно сортирует все и берет первый.
Условно говоря, list(sorted(data))[1]
А есть .first? В доках что-то не нашел. ЧТобы был max(data).
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я пока максимум видел 40 мегов строку)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Есть first(column).over(window)
источник

ЕГ

Евгений Глотов... in Moscow Spark
И ещё можно подушнить чутка? Псевдо-скл-код, разбитый на функции по одной строчке, прям супер неудобно читать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Лучше всё одной простынёй, каждый оператор с новой строки
источник