Size: a a a

2021 March 15

АС

Артур Семенов... in Data Engineers
вот в таком виде я запускаю
источник

UD

Uncel Duk in Data Engineers
вы пакуете кондовский энв со всеми зависимостями в тарбол и закидывает в спарк
источник

UD

Uncel Duk in Data Engineers
питоньи яйца могут потребовать какой-нибудь libstdcxx которого на кластере нет
источник

АС

Артур Семенов... in Data Engineers
где в run.py импорт и запуск, буквально 10 строк кода
а основной код в core модуле
источник

АС

Артур Семенов... in Data Engineers
без яиц тоже не взлетает)
источник

UD

Uncel Duk in Data Engineers
tl;dr если нет желания страдать конда и фейсбучный xar
источник

АС

Артур Семенов... in Data Engineers
так я вообще конду не использую, у меня чистый пайтон + ряд библиотек
источник

АС

Артур Семенов... in Data Engineers
локально
источник

АС

Артур Семенов... in Data Engineers
а на кластере - все библиотеки в готовом env (парселе), который занимает черт знает сколько места
источник

UD

Uncel Duk in Data Engineers
Ну так положите свой тарбол в хдфс, с репликацией по количеству нод
источник

АС

Артур Семенов... in Data Engineers
что такое тарбол? И не слишком ли сложно размазывать 1 вспомагательный пакет по всем нодам кластера?)
неужели нет способа удобнее
источник

UD

Uncel Duk in Data Engineers
Длинный ответ
источник

VG

Vladimir Gavrilenko in Data Engineers
Артур Семенов
что такое тарбол? И не слишком ли сложно размазывать 1 вспомагательный пакет по всем нодам кластера?)
неужели нет способа удобнее
Есть, см пример выше)
источник

МЛ

Максим Лыжков... in Data Engineers
Артур Семенов
эту ошибку исправил (нужно было убрать пробел между перечислением в py-files)
Но контекст так и не взлетел, с той же ошибкой
non zero exit code 13
а попробуй сделать отложенный импорт своего модуля
то есть в run.py в непосредственно перед использованием
источник

UD

Uncel Duk in Data Engineers
Парсели клаудеры и прочего не дают герметичных зависимостей, например кто-то из команды хочет свежий пандас/арроу и т.п. Запакованный тарбол/xar лежащий на хдфс позволяет гвоздями прибить транзитивные зависимости и не париться, дополнительно не забиваются системные диски нод.
источник

VG

Vladimir Gavrilenko in Data Engineers
Артур Семенов
эту ошибку исправил (нужно было убрать пробел между перечислением в py-files)
Но контекст так и не взлетел, с той же ошибкой
non zero exit code 13
А какой полный стектрейс? Все еще зависимости?
источник

АС

Артур Семенов... in Data Engineers
Vladimir Gavrilenko
А какой полный стектрейс? Все еще зависимости?
про зависимости в явном виде ничего нет, просто non zero code 13
никакой информации более
источник

VG

Vladimir Gavrilenko in Data Engineers
Артур Семенов
про зависимости в явном виде ничего нет, просто non zero code 13
никакой информации более
Еще может быть дело в том, как зазиповал, с папкой или в корень зип файла
источник

АС

Артур Семенов... in Data Engineers
внутри zip файла только файлы .py, без вложенной директории
источник

IK

Ilya Kozyrev in Data Engineers
Привет! Возник вопрос загрузки данных из SAP BW, жуть проперитарная ещё та. Может у кого то был опыт такого взаимодействия чем доставать данные? к HANA можно подцепиться через JDBC а вот с BW беда какая-то. Тулинг - java, как-то нужно будет настроить зависимости, желательно чтобы коннекторы были в maven где-то
источник