Size: a a a

2021 June 19

C

Combot in Data Engineers
kbsmhz vsrok has been banned! Reason: CAS ban.
источник

МК

Михаил Королев... in Data Engineers
да, только все равно там "немного" логов прилетит...😊
источник

МК

Михаил Королев... in Data Engineers
про jupyter не понял про платность/бесплатность - уже долго использую (и настоятельно рекомендую) и ни разу про платность не задумывался, где посмотреть детали?
источник

МК

Михаил Королев... in Data Engineers
под виндой настоятельно рекомендую развернуть WSL и поставить в него тот линукс, который нужно, если интересно - даже ролик записал на эту тему (ибо на мой взгляд - качественное решение, работает, много проблем снимает)
источник

SS

Sergey Sitishev in Data Engineers
А подскажите, тут речь о том чтобы запустить локально spark? И если нет, то можно поподробней пожалуйста как из джупитера запустить spark задачу на кластере?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Да, я говорил про локальный Спарк, конечно
источник

ПФ

Паша Финкельштейн... in Data Engineers
Я вообще больше по цеппелину чем про Юпитеру потому что мы интегрируемся с цеппелином и на всякое вокруг у меня сил не хватает
источник

SS

Sergey Sitishev in Data Engineers
Ок, спасибо
источник

SS

Sergey Sitishev in Data Engineers
Я знаю, что можно использовать связку sparkmagic + Livy, но беда в том, что Livy похоже мёртв. Вот понадеялся на то, что есть ещё какой способ )
источник

NN

No Name in Data Engineers
На заранее собранном кластере хадупа - если клиент мод, то запускаете на эдж ноде ноутбучек, прокидываете переменные окружения, стартуете спарк сессию, и работаете. Драйвер поднимется на эдж ноде.
источник

ME

Max Efremov in Data Engineers
Цеппелин норм, дебажу на нём в EMR)
источник

SS

Sergey Sitishev in Data Engineers
Да, это идея, спасибо!
Но у нас данные в s3 и хотим пускать спарк джобы на k8s (eks + fargate). Так потому что сейчас для spark задач не предвидется постоянных нагрузок, пришел раз в неделю, запустил, посчитал, ушел думать. И emr из этих соображений кажется дорогим.
Для notebook разворачиваем Zeppelin.
источник

МК

Михаил Королев... in Data Engineers
jupyter тут не очень причем - если pyspark настроен нормально (т.е. может запускать приложения в локальном и кластерном режиме), то ровно то же самое будет делать и jupyter: меняем параметр master()-а, да и все
источник

МК

Михаил Королев... in Data Engineers
цеппелин все же тяжеловеснее юпитера, и "пушистее" - в нем больше скролить приходится, клавиатруных шорткатов в юпитере больше. Если есть возможность выбора - я выбираю юпитер...
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
vscode уже из коробки умеет
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Вот только на удаленный сервер пока не раскурил, как подключить нормально
источник
2021 June 20

МК

Михаил Королев... in Data Engineers
Еще 5 копеек про юпитер - не надо забывать, что кроме просто исполнения кода, это еще и файловый менеджер для удаленного хоста - полная работа с файловой системой включая редактирование файлов плюс терминал. Этого в цеппелине ох как не хватает...
источник

S

Stanislav in Data Engineers
%sh в помощь
если что-то более мощное, чем консоль линукса
источник

МК

Михаил Королев... in Data Engineers
ну bash интерпретатор и в цеппелине есть, но... он не интерактивен (в отличие от юпитера)
источник

МК

Михаил Королев... in Data Engineers
и редактировать (файлы) в цеппелине тоже не получается (или я не осилил)
источник