Телеграмм чат группы hadoopusers страница 1983

Ребята, глупый вопрос, но к сожалению я его задаю. Я использую спарк 2.1.1, у меня есть 2 пути, в первом пути лежат данные с партициями (не всеми, тех которых нехватает лежат как раз таки в другом пути), а в другом пути лежат точно такие же данные по структуре, только партиции другие, по сути мне нужно из одного источника взять и залить в другой, НО спарк мне не позваляет этого делать, так как если я прочитаю все нехватающие данные с партициями (со 2ого пути) и залью в первый путь, то выдаст ошибку (Путь такой существует), а если я возьму и поставлю mode("overwrite") то вообще все похерит и зальет только то что выкачал из второго источника, как быть?

источник

01:00пожаловаться #6

DM

David Manukian in Data Engineers

По факту надо просто перенести недостающие партиции, но ручками это делать невозможно, очень долго

источник

01:00пожаловаться #7

DM

David Manukian in Data Engineers

знаю что с 2.3 спарк умеет как-то делать overwrite партиций конкретно

источник

01:00пожаловаться #8

DM

David Manukian in Data Engineers

есть один 100%ый вариант, это просто читать на уровне партиции spark.read.orc/parquet("") и класть же на уровне партиции spark.write.orc/parquet(), но это пойдет когда тебе 1-2 раза надо сделать так, а речь идет о сотни партиций, то есть при каждой партии он будет читать spark.read...., это нормально?

источник

01:07пожаловаться #9

K

KrivdaTheTriewe in Data Engineers

David Manukian

Ребята, глупый вопрос, но к сожалению я его задаю. Я использую спарк 2.1.1, у меня есть 2 пути, в первом пути лежат данные с партициями (не всеми, тех которых нехватает лежат как раз таки в другом пути), а в другом пути лежат точно такие же данные по структуре, только партиции другие, по сути мне нужно из одного источника взять и залить в другой, НО спарк мне не позваляет этого делать, так как если я прочитаю все нехватающие данные с партициями (со 2ого пути) и залью в первый путь, то выдаст ошибку (Путь такой существует), а если я возьму и поставлю mode("overwrite") то вообще все похерит и зальет только то что выкачал из второго источника, как быть?

парт ишн бай оверайт

источник

01:35пожаловаться #10

K

KrivdaTheTriewe in Data Engineers

мод

источник

01:35пожаловаться #11

K

KrivdaTheTriewe in Data Engineers

попробуй

источник