Size: a a a

2020 January 15

OI

Oleg Ilinsky in Data Engineers
Alex
я бы в вопросе сразу указал кого ищешь и ожидаемые навыки, чтобы было более релевантно
уже звучит как собеседование
источник

A

Alex in Data Engineers
нет, просто от ревьюверов ожидаешь релевантный фидбек
а если сразу не указать, то будут стучать и вопросы задавать, но на выходе не факт что будет что-то полезное
источник

AE

Alexey Evdokimov in Data Engineers
не, просто в рецензенты нужны «опытные чуваки», что бы это ни значило
источник

GP

Grigory Pomadchin in Data Engineers
кстати формат фидбэка тоже интересен
источник

GP

Grigory Pomadchin in Data Engineers
Оно же время тоже занимает)
источник

AE

Alexey Evdokimov in Data Engineers
пошарю документы гуглодоком или типа того, там можно будет писать комменты
источник

AE

Alexey Evdokimov in Data Engineers
ну или электронкой, как кому удобно
источник

DM

David Manukian in Data Engineers
Можно ли в спарке в 2.1.1 сделать overwrite только конкретный партишн полностью, а не всю бд? Mode = Overwrite, затем dataframe делаю insertInto. в существующую таблицу
источник

DM

David Manukian in Data Engineers
я имею ввиду мне же не нужно указывать партишн для overwrite, если я считываю из данные для записи таблицы hive которая запартишна уже
источник

T

T in Data Engineers
David Manukian
Можно ли в спарке в 2.1.1 сделать overwrite только конкретный партишн полностью, а не всю бд? Mode = Overwrite, затем dataframe делаю insertInto. в существующую таблицу
spark.sql.sources.partitionOverwriteMode= dynamic  не?
источник

OA

Oleg Agapov in Data Engineers
David Manukian
Можно ли в спарке в 2.1.1 сделать overwrite только конкретный партишн полностью, а не всю бд? Mode = Overwrite, затем dataframe делаю insertInto. в существующую таблицу
я делаю df.write.parquet("/path/to/table/partition=<value>"), т.е. просто перезаписываю нужную папку с партицией
источник

DM

David Manukian in Data Engineers
@oleg_agapov да если вариант не найду, то так и сделаю
источник

DM

David Manukian in Data Engineers
@usualreptiloid то есть просто выставить  OverwriteMode=dynamic будет резолвить партишны считанных данных из хайва (орс файлы) и класть их перезаписывая только те партишны которые считал?
источник

DM

David Manukian in Data Engineers
я например точно знаю какую партицию я читаю, но мне надо что бы при записи оно перезаписало только 1 партицию а не всю базу к примеру
источник

T

T in Data Engineers
David Manukian
@usualreptiloid то есть просто выставить  OverwriteMode=dynamic будет резолвить партишны считанных данных из хайва (орс файлы) и класть их перезаписывая только те партишны которые считал?
он должен перезаписывать только те парции которые надо обновить, я не тестил с бд с с3 работает прекрасно
источник

OA

Oleg Agapov in Data Engineers
динамаческая перезапись партиций есть с 2.3.0
https://stackoverflow.com/a/49691528
источник

DM

David Manukian in Data Engineers
ладно я понял, спасибо, я просто думал возможно есть уже проверенный вариант, но если надо естественно надо тестить
источник

DM

David Manukian in Data Engineers
@oleg_agapov с 2.3.0 я видел, да, но у нас пока 2.1.1
источник

DM

David Manukian in Data Engineers
мне просто интересно вот из опыта людей которые сталкивались, например есть хайв и так сложилось что есть дубликаты за какую ту партицию (пускай будет партиция = день, самый элементарный) и вот нужно сделать дедупликацию, вариант первый это дедублицировать через спарк перезаписывая партиции полностью, а какие еще варианты можно применить, возможно нетривиальные?
источник

c

ciplenok57 in Data Engineers
Всем привет. Как можно попрактиковаться со спарком? Может у кого-то есть какой-то задачник чтоб руку набить?)
источник