Size: a a a

2021 November 15

CO

Chern Oleksander in Moscow Spark
может есть более правильный механизм, как такое можно реализовать. спасибо!
источник
2021 November 16

ДД

Джон Дориан... in Moscow Spark
Если у вас спарк >= 2.4 то посмотрите в сторону метода sequence()
источник

ДД

Джон Дориан... in Moscow Spark
источник

CO

Chern Oleksander in Moscow Spark
Не улавливаю, как сиквенс тут поможет, у меня таблица с продажами по 1млн строк в день

И типа делать для каждого пользователя старт/стоп периоды ?
источник

A

Alex in Moscow Spark
с ливви и не страдать не получится =)


1. spark 3.0+ только в мастер бранче, релизов ещё не было, так что собираете сами

2. проблема у ливи про запуск в докере и бридж нетворк (откат патча, с хост нетворком работает корректно), https://issues.apache.org/jira/browse/LIVY-697 не понимая сделали        InetSocketAddress insocket = (InetSocketAddress) ctx.channel().remoteAddress();   что с бриджом конечно же вернёт адрес бриджа

3. spark 3.2+ пересобираете ещё один образ со скала 2.12.15 (дефолтная 2.12.10 не полетит) + curator обновить 2.7.1->2.13.0 (они в 2.10.0 вроде шейдить гуаву начали) иначе у вас начнётся конфликт между гуава версиями из спарка и из ливи при попытке включить zkstore для ha

4. k8s пока отдельным pr висит, не в мастере, так что нужно самому мержить, пока его не тестил, не могу ничего сказать


вообще sparkmagic это лишь либа которая с одной стороны высовывает jupyter kernel порты, с другой ходит по rest в livy

livy на создании генерит конфиг и дёргает шел с командой spark-submit bla-bla-bla
источник

A

Alex in Moscow Spark
поэтому алокейтнуть контейнер под кернел и там поднять спарк сессию возможно будет и проще
мы пока только исследуем как спарк в кубик для джупайтера пихать и какие нюансы будут
источник

GP

Grigory Pomadchin in Moscow Spark
самый простой способ пока просто ткнуть сессию на кубапи и все
источник

GP

Grigory Pomadchin in Moscow Spark
ну в любом случае это проще чем возня с ливи
источник

GP

Grigory Pomadchin in Moscow Spark
доп слой абстракции не упрощает
источник

GP

Grigory Pomadchin in Moscow Spark
там только ньюансы с рбаком, если конечно конечно важны
и бест практисами как это оформить, что бы юзеры друг другу в контейнеры не лазили
источник

A

Alex in Moscow Spark
ну у нас есть нюансы

ты можешь писать код в локальной иде, говнолибы и свой говнокод
потом сказать "хочу из этого сделать нотебук" (одна команда в сбт, сделано как плагин)
мы запакуем, закинем на хдфс, сгенерим тебе нотебук с корректными проставленными путями и кернелом на нужный спарк, дадим ссылку по которой он доступен

то есть перейдя по ней ты просто продолжаешь уже в браузере ковыряться
источник

K

KrivdaTheTriewe in Moscow Spark
вот бы датабрикс показал свой кодддд
источник

K

KrivdaTheTriewe in Moscow Spark
вот странно, на самом деле, обычно же обратную задачу решают, сделать из ноутбука код
источник

A

Alex in Moscow Spark
ну для ресерчев когда нужно подключить либы от других команд и вообще common libs от датасайнс тим
источник

GP

Grigory Pomadchin in Moscow Spark
хм обычно наоборот я думал ну ладно бывает всякое
источник

K

KrivdaTheTriewe in Moscow Spark
ну и кстати ноутбук можно подымать на тачке разраба, как ни странно
источник

GP

Grigory Pomadchin in Moscow Spark
да наши также 😵
источник

A

Alex in Moscow Spark
то есть это не для датаинжинеров, а для датасатанистов
источник

GP

Grigory Pomadchin in Moscow Spark
если это кубер то будут проблемы
драйвер должен быть виден воркерам
источник

A

Alex in Moscow Spark
ну мы можем скедулить и питон и спарк нотебуки ....
узи не эйрфлоу, стерпит всё
источник