Телеграмм чат группы hadoopusers страница 3777

Size: a a a

Data Engineers

2590 membersпожаловаться на группу

2021 June 19

Combot in Data Engineers

kbsmhz vsrok has been banned! Reason: CAS ban.

источник

10:44пожаловаться #1

МК

Михаил Королев... in Data Engineers

да, только все равно там "немного" логов прилетит...😊

источник

13:45пожаловаться #2

МК

Михаил Королев... in Data Engineers

про jupyter не понял про платность/бесплатность - уже долго использую (и настоятельно рекомендую) и ни разу про платность не задумывался, где посмотреть детали?

источник

13:45пожаловаться #3

МК

Михаил Королев... in Data Engineers

под виндой настоятельно рекомендую развернуть WSL и поставить в него тот линукс, который нужно, если интересно - даже ролик записал на эту тему (ибо на мой взгляд - качественное решение, работает, много проблем снимает)

источник

13:45пожаловаться #4

Sergey Sitishev in Data Engineers

А подскажите, тут речь о том чтобы запустить локально spark? И если нет, то можно поподробней пожалуйста как из джупитера запустить spark задачу на кластере?

источник

15:22пожаловаться #5

ПФ

Паша Финкельштейн... in Data Engineers

Да, я говорил про локальный Спарк, конечно

источник

15:26пожаловаться #6

ПФ

Паша Финкельштейн... in Data Engineers

Я вообще больше по цеппелину чем про Юпитеру потому что мы интегрируемся с цеппелином и на всякое вокруг у меня сил не хватает

источник

15:27пожаловаться #7

Sergey Sitishev in Data Engineers

Ок, спасибо

источник

15:28пожаловаться #8

Sergey Sitishev in Data Engineers

Я знаю, что можно использовать связку sparkmagic + Livy, но беда в том, что Livy похоже мёртв. Вот понадеялся на то, что есть ещё какой способ )

источник

15:40пожаловаться #9

No Name in Data Engineers

На заранее собранном кластере хадупа - если клиент мод, то запускаете на эдж ноде ноутбучек, прокидываете переменные окружения, стартуете спарк сессию, и работаете. Драйвер поднимется на эдж ноде.

источник

15:43пожаловаться #10

Max Efremov in Data Engineers

Цеппелин норм, дебажу на нём в EMR)

источник

15:57пожаловаться #11

Sergey Sitishev in Data Engineers

Да, это идея, спасибо!
Но у нас данные в s3 и хотим пускать спарк джобы на k8s (eks + fargate). Так потому что сейчас для spark задач не предвидется постоянных нагрузок, пришел раз в неделю, запустил, посчитал, ушел думать. И emr из этих соображений кажется дорогим.
Для notebook разворачиваем Zeppelin.

источник

16:02пожаловаться #12

МК

Михаил Королев... in Data Engineers

jupyter тут не очень причем - если pyspark настроен нормально (т.е. может запускать приложения в локальном и кластерном режиме), то ровно то же самое будет делать и jupyter: меняем параметр master()-а, да и все

источник

18:34пожаловаться #13

МК

Михаил Королев... in Data Engineers

цеппелин все же тяжеловеснее юпитера, и "пушистее" - в нем больше скролить приходится, клавиатруных шорткатов в юпитере больше. Если есть возможность выбора - я выбираю юпитер...

источник

18:36пожаловаться #14

Vladislav 👻 Shishkov... in Data Engineers

vscode уже из коробки умеет

источник

23:46пожаловаться #15

Vladislav 👻 Shishkov... in Data Engineers

Вот только на удаленный сервер пока не раскурил, как подключить нормально

источник

23:47пожаловаться #16

2021 June 20

МК

Михаил Королев... in Data Engineers

Еще 5 копеек про юпитер - не надо забывать, что кроме просто исполнения кода, это еще и файловый менеджер для удаленного хоста - полная работа с файловой системой включая редактирование файлов плюс терминал. Этого в цеппелине ох как не хватает...

источник

08:03пожаловаться #17

Stanislav in Data Engineers

%sh в помощь
если что-то более мощное, чем консоль линукса

источник

12:05пожаловаться #18

МК

Михаил Королев... in Data Engineers

ну bash интерпретатор и в цеппелине есть, но... он не интерактивен (в отличие от юпитера)

источник

12:32пожаловаться #19

МК

Михаил Королев... in Data Engineers

и редактировать (файлы) в цеппелине тоже не получается (или я не осилил)

источник

12:32пожаловаться #20