Телеграмм чат группы moscowspark страница 15

Привет, чат!

Тут в почту прилетела приглашалка для early bird регистрации на Spark+AI Summit 2018 (можно сэкономить 200 зеленых рублей) https://databricks.com/sparkaisummit/north-america

Но самое интересное в другом. Вот, что в слогане “THE WORLD'S LARGEST EVENT FOR THE APACHE SPARK COMMUNITY — NOW WITH AI”. Ну, короче, мы взяли старый-добрый Spark Summit и вкрячили туда AI для вящего хайпа, подумал я. Но интерес, все же, возобладал, да и написать что-то в канальчик пора. Тут, отвлекусь, и напомню, что, обычно, машинку на Spark делают по известному сценарию. Отмолотить датасет на спарке, засэмплировать часть на драйвер, обучить модельку локально, заброадкастить модельку на экзекьюторы и предсказать распределенно. Конечно, учить модели можно и с помощью Spark.ML, но он достаточно убог (что изменится в релизе 2.3 я уточню и напишу отдельным постом). Но вообще вся боль текущего Spark.ML изложена в бенчмарке https://github.com/rambler-digital-solutions/criteo-1tb-benchmark#algorithms

Так вот, полез я смотреть, что там с AI на Spark. У Databricks по этому поводу даже целый раздел документации https://docs.databricks.com/applications/deep-learning/index.html. Там, впрочем, никакого распределенного обучения не нашлось. Неудивительно, ведь кто-то должен управлять ресурсами. Ни YARN, ни Mesos, ни спарковский планировщик в GPU не умеют. Поэтому классическая схема с локальным обучением и распределенным инференсом в деле.

Если у кого-то есть знания, про распределенное обучение сеток на спарке, кидайте в канальчик, обсудим!

Databricks

Spark + AI Summit | Artificial Intelligence & Apache Spark Conference

Spark + AI Summit is the largest data and machine learning conference. Join over 7,000 data scientists, engineers and analysts to collaborate at the intersection of data and ML

источник

13:17пожаловаться #13

ЛР

Лев Рагулин... in Moscow Spark

Pavel Klemenkov

Привет, чат!

Тут в почту прилетела приглашалка для early bird регистрации на Spark+AI Summit 2018 (можно сэкономить 200 зеленых рублей) https://databricks.com/sparkaisummit/north-america

Но самое интересное в другом. Вот, что в слогане “THE WORLD'S LARGEST EVENT FOR THE APACHE SPARK COMMUNITY — NOW WITH AI”. Ну, короче, мы взяли старый-добрый Spark Summit и вкрячили туда AI для вящего хайпа, подумал я. Но интерес, все же, возобладал, да и написать что-то в канальчик пора. Тут, отвлекусь, и напомню, что, обычно, машинку на Spark делают по известному сценарию. Отмолотить датасет на спарке, засэмплировать часть на драйвер, обучить модельку локально, заброадкастить модельку на экзекьюторы и предсказать распределенно. Конечно, учить модели можно и с помощью Spark.ML, но он достаточно убог (что изменится в релизе 2.3 я уточню и напишу отдельным постом). Но вообще вся боль текущего Spark.ML изложена в бенчмарке https://github.com/rambler-digital-solutions/criteo-1tb-benchmark#algorithms

Так вот, полез я смотреть, что там с AI на Spark. У Databricks по этому поводу даже целый раздел документации https://docs.databricks.com/applications/deep-learning/index.html. Там, впрочем, никакого распределенного обучения не нашлось. Неудивительно, ведь кто-то должен управлять ресурсами. Ни YARN, ни Mesos, ни спарковский планировщик в GPU не умеют. Поэтому классическая схема с локальным обучением и распределенным инференсом в деле.

Если у кого-то есть знания, про распределенное обучение сеток на спарке, кидайте в канальчик, обсудим!

Databricks

Spark + AI Summit | Artificial Intelligence & Apache Spark Conference

Spark + AI Summit is the largest data and machine learning conference. Join over 7,000 data scientists, engineers and analysts to collaborate at the intersection of data and ML

sticker.webp

(20.2 Кб)

источник

13:46пожаловаться #14

ЛР

Лев Рагулин... in Moscow Spark

San Francisco...

источник

13:46пожаловаться #15

2018 February 21

PK

Pavel Klemenkov in Moscow Spark

Так, ребятки и девчатки, на прошлой неделе состоялся вебинар Reynold Xin, который рассказывал про то, что нас ждет в релизе 2.3 http://go.databricks.com/databricks-runtime-4-with-apache-spark2-3. Я начал его слушать и постепенно буду излагать сюда мысли по этому поводу. Stay tuned

Databricks

What's New in the Upcoming Apache Spark 2.3 Release?

The much anticipated release of Databricks Runtime 4.0 will include the upcoming Spark 2.3 release, marking a big step forward in speed, unification, and API support.

источник

12:15пожаловаться #16

K

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

Так, ребятки и девчатки, на прошлой неделе состоялся вебинар Reynold Xin, который рассказывал про то, что нас ждет в релизе 2.3 http://go.databricks.com/databricks-runtime-4-with-apache-spark2-3. Я начал его слушать и постепенно буду излагать сюда мысли по этому поводу. Stay tuned

Databricks

What's New in the Upcoming Apache Spark 2.3 Release?

The much anticipated release of Databricks Runtime 4.0 will include the upcoming Spark 2.3 release, marking a big step forward in speed, unification, and API support.

стрим - стрим

источник

13:02пожаловаться #17

2018 February 26

KM

Kirill Malev in Moscow Spark

Привет. А как правильно инициализировать контекст спарка в fat jar ?

источник

16:50пожаловаться #18

KM

Kirill Malev in Moscow Spark

val conf = new SparkConf().setAppName(«YourAppName»).setMaster("yarn-client")
        val sc = new SparkContext(conf)

источник

16:50пожаловаться #19

KM

Kirill Malev in Moscow Spark

вот так?

источник

16:50пожаловаться #20