Size: a a a

2021 December 15

SI

Sergey Ivanychev in Moscow Spark
аааа, с полной перезаписью всего? типа данные мутируются?
источник

ДД

Джон Дориан... in Moscow Spark
Да, в этом и проблема (
источник

SI

Sergey Ivanychev in Moscow Spark
есть delta, она позволяет сделать конкурентное чтение и запись из одной и той же таблицы
источник

SI

Sergey Ivanychev in Moscow Spark
по идее с ней у вас не будет временных папок + можно сделать механизм, когда таблица полностью перезаписывается
источник

SI

Sergey Ivanychev in Moscow Spark
другое дело, что это все равно остается плохо с точки зрения схемы да и вообще
источник

ME

Mikhail Epikhin in Moscow Spark
так а нельзя просто обойтись mv вместо cp?
источник

ME

Mikhail Epikhin in Moscow Spark
записали во временную директорию в hdfs, а потом сделали mv
источник

O

Oleg in Moscow Spark
Партиции настройте на мутации, если возможно и перезаписывайте, или удаляйте и новые добавляйте на худой
источник

ДД

Джон Дориан... in Moscow Spark
Спасибо всем за советы!🙏
источник

ДД

Джон Дориан... in Moscow Spark
А я правильно понимаю, что если у нас отсутствует папка, в которую мы хотим перенести данные из temp, то mv будет работать как rename?
источник

ДД

Джон Дориан... in Moscow Spark
Сори, забыл что в Гугле не забанили)) нашел ответ
источник

k

kvadratura in Moscow Spark
1. спарк записывает в temp, suceeds
2. rename hdfs-"папки" - atomic op, и быстро. с aws s3 такой номер не прошел бы
источник

k

kvadratura in Moscow Spark
можно hdfs клиента для rename вызвать, он вместе со спарком уже у вас есть
источник

SI

Sergey Ivanychev in Moscow Spark
> aws s3 такой номер не прошел бы

не сыпь мне соль на рану!
источник

k

kvadratura in Moscow Spark
dynamic partition overwrite не сработает, да 😄
источник

k

kvadratura in Moscow Spark
или как там его.. тот, что выборочно умеет обновлять партиции, а не все сразу
источник

SI

Sergey Ivanychev in Moscow Spark
оно работает, но более криво чем hdfs
источник

SI

Sergey Ivanychev in Moscow Spark
в s3 даже mv файла нет — это copy + delete
источник

k

kvadratura in Moscow Spark
к сожалению, это равносильно "не работает" на сколько-нибудь значимых объемах 😒 да, тоже выкручиваться доводилось
источник

A

Alex in Moscow Spark
А как же hadoop не нужен, k8s + minio хватит всем
источник