Size: a a a

2022 February 03

k

kvadratura in Moscow Spark
попробуйте запустить тест с dummy udf. возвращайте константу
источник

k

kvadratura in Moscow Spark
может так оказаться, что и не в udf проблема
источник

A

Ali Isfandiyarov in Moscow Spark
план по оптимизациям наметил, спасибо)
источник

k

kvadratura in Moscow Spark
я, на самом деле, склонен тут согласиться с коллегой - нужно всю app целиком смотреть, из-за спарковской lazyness
источник

k

kvadratura in Moscow Spark
без эксперимента с dummy, которая ничего не делает, нет доказательств, что именно этот udf дорогой
источник

A

Ali Isfandiyarov in Moscow Spark
да, мысль интересная, попробую в-первую очередь)
источник

A

Ali Isfandiyarov in Moscow Spark
отработало за 3 минуты все 186 млн
источник

A

Ali Isfandiyarov in Moscow Spark
видимо пишу mapPartitions)
источник

k

kvadratura in Moscow Spark
👍👍
источник

k

kvadratura in Moscow Spark
вопрос - в делаете сплит по # - то есть, вы перед этим пакуете так в строку все?
источник

A

Ali Isfandiyarov in Moscow Spark
да
источник

k

kvadratura in Moscow Spark
почему не хотите избежать упаковки и распаковки? сразу array передавать везде, например
источник

MK

Mikhail Kuznetsov in Moscow Spark
Раз дело в долгом первичном вычислении модели и mapPartitions вам помог, можно сделать еще быстрее через transient lazy val pattern - так модель будет считаться только 1 раз на воркер (в случае с mapPartitions - модель считается для каждой партиции).
источник

A

Ali Isfandiyarov in Moscow Spark
возможно переделаю
источник

A

Ali Isfandiyarov in Moscow Spark
можно пример паттерна
источник

DZ

Dmitry Zuev in Moscow Spark
если сериализируется
источник

MK

Mikhail Kuznetsov in Moscow Spark
важное замечание
источник

Н

Никита in Moscow Spark
Добрый день!

Возник вопрос:

делаю запись данных в hive таблицу двумя различными способами:
1) df.write.partitionBy("col1", "col2").mode('overwrite').parquet('path to table data location')
2) df.write.format('parquet').insertInto(table_name, overwrite='True')


Получаю результаты
1) Permission denied
2) OK


С чем это может быть связано? Была единственная мысль - я записывал в другую папку, где у меня не было доступа. но через show create table удостоверился, что location - правильный

Мб кто-то сможет объяснить, в чем разница и когда стоит записывать через файлы , а когда - insertInto table?
источник

A

Ali Isfandiyarov in Moscow Spark
переписал на mapPartitions, в итоге с 9 часов, время уменьшилось до 10 минут )) спасибо!
источник

MD

Michael Davydov in Moscow Spark
источник