Телеграмм чат группы hadoopusers страница 4325

Всем привет. Пытаюсь оптимизировать джойн двух больших таблиц, смотрю в сторону бакетинга. Начал его использовать, в плане всё стало хорошо, Exchange исчез. Но есть вопрос - в чем принципиальная разница в спарке между repartition(key1,key2,key3).save() и bucketBy(key1,key2,key3).save() ? Я же по идее могу просто вызвать репартишенинг по ключам джойна перед сохранением? эффект же тот же будет?

источник

13:27пожаловаться #7

Evgeny Sanevich in Data Engineers

Подскажите пожалуйста, где спарк хранит стейт для

.dropDuplicates()

? В оперативной памяти или на диске? Или и там и там? Если в стриме без вотермарка делать .

dropDuplicates()

можно получить OOM на экзекюторе? Или просто диск забьется?
Какие вообще есть best practice по дедупликации стрима в спарке при условии что дубликат может прийти когда угодно?

источник

13:52пожаловаться #8

T in Data Engineers

@asm0dey а смарт дата евенчули выкладывается в открытый доступ? Или остаётся за пейволом на всегда ?

источник

14:01пожаловаться #9

Vladislav 👻 Shishkov... in Data Engineers

Прошлая в паблике давно

источник

14:02пожаловаться #10

T in Data Engineers

Найс, дождусь тогда этой и гляну про функциональный Спарк. @pomadchin там на английском доклад был?

источник

14:04пожаловаться #11

ИК

Иван Калининский... in Data Engineers

да, эффект тот же, но во втором случае он постоянный, потому что материализован

источник

14:15пожаловаться #12

ММ

Максим Митяев... in Data Engineers

Вопрос по aws glue.
Как разрешить The number of columns doesn't match. Old columns: тут столбцы, new columns: пусто?

Пайплайн 3 операции: чтение 2 фреймов, toDf() для вьюшки и джойн через spark.sql.

источник

14:15пожаловаться #13

Aleksandr in Data Engineers

что-то не очень понимаю, что значит «постоянный» и «материализован». У меня что так, что так N паркет файлов появляется в бакете

источник

14:17пожаловаться #14

No Name in Data Engineers

Про бакетировании инфа запишется в table properties, и если читать дальше с помощью .table, то количество партиций, и их расположение будет фиксированным - удобно, если табличка редко меняется, но часто джойнится с другими.
В ином случае нужно каждый раз при чтении делать .repartition, чтобы получить такой результат.

источник

14:19пожаловаться #15

Aleksandr in Data Engineers

так можно же вызывать .repartition при записи ? и при чтении тогда не придётся

источник

14:27пожаловаться #16

Grigory Pomadchin in Data Engineers

жоская идея

источник

14:28пожаловаться #17

No Name in Data Engineers

Придется.
Чтение - достаточно сложный процесс, которым управляет набор параметров. Ещё и зависимость от формата есть. Гляньте в конфиги, там найдете.