Size: a a a

2020 December 03

VS

Vladislav 👻 Shishkov... in Data Engineers
Точнее, это ничем не отличается, что просто репа на проект, что монорепа, там нет ничего больше, чтобы говорить, что это монорепа...
источник

N

Nikita Blagodarnyy in Data Engineers
а что не так с иерархичной артифактницей?
источник

N

Nikita Blagodarnyy in Data Engineers
я без претензии на спор, я понять пытаюсь. почему питон скалу и джаву и ямл валят в одно место и как потом ci/cd это должен разобрать и раздеплоить.
источник

AE

Alexey Evdokimov in Data Engineers
конфиги всё же стоит держать отдельно
источник

AZ

Anton Zadorozhniy in Data Engineers
С монорепой артефактница нужна только для докеробразов (ну и С3 для дагов), в этом весь поинт
источник

RR

Roman Rusakov in Data Engineers
А почему даги отдельно? Они не версионируются и не меняются?
источник

RR

Roman Rusakov in Data Engineers
А я понял сори, вопрос снят))
источник
2020 December 04

N

Natali in Data Engineers
Привет в группу, есть наверное глупый вопрос, но пока не могу его решить. Есть таблица которая хранится на s3, partition by date в csv формате, из-за того что файл большой сам csv тоже разбился на части. Так вот пишу glue job на pyspark, создаю df на базе этой таблицы, отработало, но на df.show падает с ошибкой IOException: Not a file и ссылка на лакейнш таблицы .csv/
Я так понимаю что проблема в дроблении csv но сама таблица на Athena прекрасно работает. Может кто то сталкивался ?
источник

ME

Max Efremov in Data Engineers
А вы прямо с s3 читаете или через glue api?
источник

ME

Max Efremov in Data Engineers
Файлики вида date=2020-10-10/part1.csv?
источник

N

Natali in Data Engineers
Я читаю из таблицы ( datacatalog) и пишу в df а файлы выглядят data=2020-10-01/location.csv/part1.csv
источник

N

Natali in Data Engineers
И он как раз ругается на location.csv из-за того что это директория
источник

AE

Alexey Evdokimov in Data Engineers
а кто в курсе, в spark 3.0.0 чего сделали с дефолтной параллельностью?
источник

AE

Alexey Evdokimov in Data Engineers
на emr 6.1 (spark 3.0.0) говорю context.parallelize(), получаю 4 екзекутора. хотя на кластер влазит 85.
на emr 5.23 (spark 2.4.0) говорю то же самое, получаю все 85.
источник

ME

Max Efremov in Data Engineers
а в кластере 4 ноды?
источник

AE

Alexey Evdokimov in Data Engineers
эт амазон чё-то мудит, или поведение поменялось, или я чё-то не вкуриваю?
источник

AE

Alexey Evdokimov in Data Engineers
нод в кластере 8
источник

AE

Alexey Evdokimov in Data Engineers
пытаюсь смигрировать наконец (потому что сколько можно на старье сидеть), но чё-то фигня какая-то. сборку жабы поменяли, GC поменяли, чё-то в кишках тоже поменяли, ещё и с параллелизмом какая-то чушь
источник

AE

Alexey Evdokimov in Data Engineers
никто не напарывался?
источник

T

T in Data Engineers
Alexey Evdokimov
пытаюсь смигрировать наконец (потому что сколько можно на старье сидеть), но чё-то фигня какая-то. сборку жабы поменяли, GC поменяли, чё-то в кишках тоже поменяли, ещё и с параллелизмом какая-то чушь
какой теперь там gc, g1 по дефолту сделали?
источник