Телеграмм чат группы hadoopusers страница 3001

Привет в группу, есть наверное глупый вопрос, но пока не могу его решить. Есть таблица которая хранится на s3, partition by date в csv формате, из-за того что файл большой сам csv тоже разбился на части. Так вот пишу glue job на pyspark, создаю df на базе этой таблицы, отработало, но на df.show падает с ошибкой IOException: Not a file и ссылка на лакейнш таблицы .csv/
Я так понимаю что проблема в дроблении csv но сама таблица на Athena прекрасно работает. Может кто то сталкивался ?

источник

01:24пожаловаться #8

Max Efremov in Data Engineers

А вы прямо с s3 читаете или через glue api?

источник

11:11пожаловаться #9

Max Efremov in Data Engineers

Файлики вида date=2020-10-10/part1.csv?

источник

11:13пожаловаться #10

Natali in Data Engineers

Я читаю из таблицы ( datacatalog) и пишу в df а файлы выглядят data=2020-10-01/location.csv/part1.csv

источник

16:31пожаловаться #11

Natali in Data Engineers

И он как раз ругается на location.csv из-за того что это директория

источник

16:32пожаловаться #12

Alexey Evdokimov in Data Engineers

а кто в курсе, в spark 3.0.0 чего сделали с дефолтной параллельностью?

источник

16:42пожаловаться #13

Alexey Evdokimov in Data Engineers

на emr 6.1 (spark 3.0.0) говорю context.parallelize(), получаю 4 екзекутора. хотя на кластер влазит 85.
на emr 5.23 (spark 2.4.0) говорю то же самое, получаю все 85.

источник

16:46пожаловаться #14

Max Efremov in Data Engineers

а в кластере 4 ноды?

источник

16:47пожаловаться #15

Alexey Evdokimov in Data Engineers

эт амазон чё-то мудит, или поведение поменялось, или я чё-то не вкуриваю?

источник

16:47пожаловаться #16

Alexey Evdokimov in Data Engineers

нод в кластере 8

источник

16:47пожаловаться #17

Alexey Evdokimov in Data Engineers

пытаюсь смигрировать наконец (потому что сколько можно на старье сидеть), но чё-то фигня какая-то. сборку жабы поменяли, GC поменяли, чё-то в кишках тоже поменяли, ещё и с параллелизмом какая-то чушь

источник

16:52пожаловаться #18

Alexey Evdokimov in Data Engineers

никто не напарывался?

источник

16:52пожаловаться #19

T in Data Engineers

Alexey Evdokimov

какой теперь там gc, g1 по дефолту сделали?

источник

16:52пожаловаться #20