Телеграмм чат группы moscowspark страница 912

Да. По сравнению с monotonically increasing id медленней, но все же конвертация происходит в параллель в разных тасках, поэтому скейлится норм. Я так понимаю ты в своем решении вычисляешь офсет в каждом партишене отдельно и прибавляешь? Не получится ли overflow при большом количестве загрузок?

источник

13:07пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Число партиций не может быть больше INT_MAX)

источник

13:08пожаловаться #7

R in Moscow Spark

Я имею в виду представь что данные грузятся порциями и ты для каждой порции генеришь айдишки. В твоём варианте получаются огромные пробелы я так понимаю, не приведет ли это в итоге при складывании огромных офсетов, что ты из long диапазона вылезешь?

источник

13:10пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Не, иначе б монотоник сам не работал

источник

13:10пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Я вычитаю монотоники

источник

13:11пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Не складываю

источник

13:11пожаловаться #11

R in Moscow Spark

А, это другое дело...надо будет глянуть поподробней... Ещё увидел что у тебя udf используется, не приведет ли это к десериализации всей строки как и в случае с rdd?

источник

13:14пожаловаться #12

R in Moscow Spark

В принципе по времени, у нас на 200 миллионов строк вариант с rdd работал 2-3 минуты но колонок было поменьше

источник

13:15пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Да по идее не должно, udf над колонками работает вполне

источник

13:20пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Такими же пачками применяется

источник

13:21пожаловаться #15

R in Moscow Spark

Думаешь он объект Row частично десереализует (одну колонку), применяет на нее udf и "всериализовывает" обратно?

источник

13:29пожаловаться #16

R in Moscow Spark

Мне кажется всю строку фигачит

источник

13:29пожаловаться #17

R in Moscow Spark

+ можно избавиться попробовать от udf если использовать spark_partition_id + .na.replace, но там конечно вопрос что случится при большом количестве партишенов

источник

13:36пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

это вполне можно делать, я так делал с отдельными полями. И я при этом старался делать так же, как во встроенных функциях. Как в механизме вызова UDF сделано, не смотрел

источник

13:45пожаловаться #19

R in Moscow Spark

+ мне кажется в твоём варианте будет две джобы из за коллекта, а zipWithUniqueId позволяет за одну сделать

источник

13:46пожаловаться #20