Size: a a a

2021 April 20

ME

Mikhail Epikhin in Data Engineers
А у вас transient cluster? или один клаастер где надо обаа клиентаа держать?
источник

ME

Mikhail Epikhin in Data Engineers
Можно попробовать с помощью s3:// сходить в другое object storage и посмотреть как оно работать будет, в теории должно
источник

ME

Mikhail Epikhin in Data Engineers
если кластер временный и нужен только один клиент, то можно либо через зависимость решить, либо через init action
источник

AE

Alexey Evdokimov in Data Engineers
кластеры эфемерные. мне просто надо резалт в яндекс клауд отдать (клиент из россии :/ который там хостится)
источник

AE

Alexey Evdokimov in Data Engineers
ну и себе копию оставить конечно
источник

AE

Alexey Evdokimov in Data Engineers
а в 6 емр по ходу выпилили s3a с концами, а ихний амазоновский кастомных эндпоинтов не поддерживает
источник

ME

Mikhail Epikhin in Data Engineers
Интересно:)
Ну тогда либо init action, либо версию постарее где есть s3a, либо запустить скачиваание из я.облакаа
источник

AE

Alexey Evdokimov in Data Engineers
короче нативно не получится
источник

АР

Андрей Романов... in Data Engineers
у яндекс-облака такое есть
https://cloud.yandex.ru/services/data-transfer
источник

АР

Андрей Романов... in Data Engineers
можеи вам поможет
источник

АР

Андрей Романов... in Data Engineers
а, хотя нет, там только мускуль и постгря
источник

ME

Mikhail Epikhin in Data Engineers
Можно кластер в я.облаке запустить и скачивать наоборот https://cloud.yandex.ru/services/data-proc
источник

AE

Alexey Evdokimov in Data Engineers
ну тут два пути. либо поднимать какой-то внешний тулинг (чего мне делать прям совсем не хочется), либо писать кастомный хадуповский FileSystem
источник

AE

Alexey Evdokimov in Data Engineers
это если делать по науке. но я извращенец, и всё делаю не по науке, так что вероятно найду место, где из спаркового апи торчит какой-нить OutputStream, и врежусь прямо туда. оберну его, и перенаправлю в s3client
источник

AE

Alexey Evdokimov in Data Engineers
тянет на пару сотен строк говнокода
источник

ME

Mikhail Epikhin in Data Engineers
Поддерживать не лень? Или пофиг если одноразово?
источник

AE

Alexey Evdokimov in Data Engineers
ну FileSystem тянет на гораздо больший эффорт
источник

ME

Mikhail Epikhin in Data Engineers
Как хотите:)
источник

AE

Alexey Evdokimov in Data Engineers
со всей инфраструктурой там парой и тыщ строк не отделаться, явно больше усилий уйдёт
источник

ME

Mikhail Epikhin in Data Engineers
Можете потом этим кодом поделиться?
источник