Size: a a a

2021 October 12

AS

Anna Shagarova in Data Engineers
Смотрим пока на сколько интересно было бы коллегам работать с данным продуктом (Data Scientist, Data Engineer)
источник

OI

Oleg Ilinsky in Data Engineers
> sap
> Быстро решать
)))
источник

N

Nikita Blagodarnyy in Data Engineers
по-моему с сапом работают исключительно по принуждению «корпоративного стандарта».
источник

А

Алексей in Data Engineers
+1 сделают бд с jdbc доступом, но читать нельзя, покупай EE опцию за милионы денег
источник

N

Nikita Blagodarnyy in Data Engineers
сап вроде как по условиям лицензии нельзя читать напрямую из базы, только через специальные веб-сервисы.
источник

А

Алексей in Data Engineers
можно, если это Hana EE, в остальных случаях только через abap proxy
источник

A

Aleksandr in Data Engineers
Всем привет. Пытаюсь оптимизировать джойн двух больших таблиц, смотрю в сторону бакетинга. Начал его использовать, в плане всё стало хорошо, Exchange исчез. Но есть вопрос - в чем принципиальная разница в спарке между repartition(key1,key2,key3).save() и bucketBy(key1,key2,key3).save() ? Я же по идее могу просто вызвать репартишенинг по ключам джойна перед сохранением? эффект же тот же будет?
источник

ES

Evgeny Sanevich in Data Engineers
Подскажите пожалуйста, где спарк хранит стейт для
.dropDuplicates()
? В оперативной памяти или на диске? Или и там и там? Если в стриме без вотермарка делать .
dropDuplicates() 
можно получить OOM на экзекюторе? Или просто диск забьется?
Какие вообще есть best practice по дедупликации стрима в спарке при условии что дубликат может прийти когда угодно?
источник

T

T in Data Engineers
@asm0dey а смарт дата евенчули выкладывается в открытый доступ? Или остаётся за пейволом на всегда ?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Прошлая в паблике давно
источник

T

T in Data Engineers
Найс, дождусь тогда этой и гляну про функциональный Спарк. @pomadchin там на английском доклад был?
источник

ИК

Иван Калининский... in Data Engineers
да, эффект тот же, но во втором случае он постоянный, потому что материализован
источник

ММ

Максим Митяев... in Data Engineers
Вопрос по aws glue.
Как разрешить The number of columns doesn't match. Old columns: тут столбцы, new columns: пусто?

Пайплайн 3 операции: чтение 2 фреймов, toDf() для вьюшки и джойн через spark.sql.
источник

A

Aleksandr in Data Engineers
что-то не очень понимаю, что значит «постоянный» и «материализован». У меня что так, что так N паркет файлов появляется в бакете
источник

NN

No Name in Data Engineers
Про бакетировании инфа запишется в table properties, и если читать дальше с помощью .table, то количество партиций, и их расположение будет фиксированным - удобно, если табличка редко меняется, но часто джойнится с другими.
В ином случае нужно каждый раз при чтении делать .repartition, чтобы получить такой результат.
источник

A

Aleksandr in Data Engineers
так можно же вызывать .repartition при записи ? и при чтении тогда не придётся
источник

GP

Grigory Pomadchin in Data Engineers
жоская идея
источник

NN

No Name in Data Engineers
Придется.
Чтение - достаточно сложный процесс, которым управляет набор параметров. Ещё и зависимость от формата есть. Гляньте в конфиги, там найдете.
источник

A

Aleksandr in Data Engineers
Понял, спасибо
источник

ПФ

Паша Финкельштейн... in Data Engineers
Через полгода примерно
источник