Size: a a a

2018 February 08

AT

Andrey Tsibulskiy in Moscow Spark
Коллеги , а никто не думал над тем как эффективно обращаться к полям дасасета в join-ах , иммею ввиду что не вводить названия колонок руками
источник

AT

Andrey Tsibulskiy in Moscow Spark
Df.join(df1, df.col("id")=== df.col("id2"))
источник

AT

Andrey Tsibulskiy in Moscow Spark
Как бы уйти от стрингов "id" "id2"
источник

PK

Pavel Klemenkov in Moscow Spark
Не понял, а что хочется? По индексам к ним обращаться?
источник

AT

Andrey Tsibulskiy in Moscow Spark
У меня предположим Dataset[caseclass]
источник

AT

Andrey Tsibulskiy in Moscow Spark
Поля класса известны
источник

AT

Andrey Tsibulskiy in Moscow Spark
Объяснил ?:-)
источник

AT

Andrey Tsibulskiy in Moscow Spark
Неудобно же
источник

AT

Andrey Tsibulskiy in Moscow Spark
Всегда помнить наименование полей в том или ином _фрайме
источник

GP

Grigory Pomadchin in Moscow Spark
можно использовать фреймлесс какраз (в хадупочатике нашем кто-то спрашивал)
источник

GP

Grigory Pomadchin in Moscow Spark
источник

AT

Andrey Tsibulskiy in Moscow Spark
Ок, спасибо, посмотрю
источник
2018 February 12

PK

Pavel Klemenkov in Moscow Spark
Привет, чат!

Тут в почту прилетела приглашалка для early bird регистрации на Spark+AI Summit 2018 (можно сэкономить 200 зеленых рублей) https://databricks.com/sparkaisummit/north-america

Но самое интересное в другом. Вот, что в слогане “THE WORLD'S LARGEST EVENT FOR THE APACHE SPARK COMMUNITY — NOW WITH AI”. Ну, короче, мы взяли старый-добрый Spark Summit и вкрячили туда AI для вящего хайпа, подумал я. Но интерес, все же, возобладал, да и написать что-то в канальчик пора. Тут, отвлекусь, и напомню, что, обычно, машинку на Spark делают по известному сценарию. Отмолотить датасет на спарке, засэмплировать часть на драйвер, обучить модельку локально, заброадкастить модельку на экзекьюторы и предсказать распределенно. Конечно, учить модели можно и с помощью Spark.ML, но он достаточно убог (что изменится в релизе 2.3 я уточню и напишу отдельным постом). Но вообще вся боль текущего Spark.ML изложена в бенчмарке https://github.com/rambler-digital-solutions/criteo-1tb-benchmark#algorithms

Так вот, полез я смотреть, что там с AI на Spark. У Databricks по этому поводу даже целый раздел документации https://docs.databricks.com/applications/deep-learning/index.html. Там, впрочем, никакого распределенного обучения не нашлось. Неудивительно, ведь кто-то должен управлять ресурсами. Ни YARN, ни Mesos, ни спарковский планировщик в GPU не умеют. Поэтому классическая схема с локальным обучением и распределенным инференсом в деле.

Если у кого-то есть знания, про распределенное обучение сеток на спарке, кидайте в канальчик, обсудим!
источник

ЛР

Лев Рагулин... in Moscow Spark
Pavel Klemenkov
Привет, чат!

Тут в почту прилетела приглашалка для early bird регистрации на Spark+AI Summit 2018 (можно сэкономить 200 зеленых рублей) https://databricks.com/sparkaisummit/north-america

Но самое интересное в другом. Вот, что в слогане “THE WORLD'S LARGEST EVENT FOR THE APACHE SPARK COMMUNITY — NOW WITH AI”. Ну, короче, мы взяли старый-добрый Spark Summit и вкрячили туда AI для вящего хайпа, подумал я. Но интерес, все же, возобладал, да и написать что-то в канальчик пора. Тут, отвлекусь, и напомню, что, обычно, машинку на Spark делают по известному сценарию. Отмолотить датасет на спарке, засэмплировать часть на драйвер, обучить модельку локально, заброадкастить модельку на экзекьюторы и предсказать распределенно. Конечно, учить модели можно и с помощью Spark.ML, но он достаточно убог (что изменится в релизе 2.3 я уточню и напишу отдельным постом). Но вообще вся боль текущего Spark.ML изложена в бенчмарке https://github.com/rambler-digital-solutions/criteo-1tb-benchmark#algorithms

Так вот, полез я смотреть, что там с AI на Spark. У Databricks по этому поводу даже целый раздел документации https://docs.databricks.com/applications/deep-learning/index.html. Там, впрочем, никакого распределенного обучения не нашлось. Неудивительно, ведь кто-то должен управлять ресурсами. Ни YARN, ни Mesos, ни спарковский планировщик в GPU не умеют. Поэтому классическая схема с локальным обучением и распределенным инференсом в деле.

Если у кого-то есть знания, про распределенное обучение сеток на спарке, кидайте в канальчик, обсудим!
источник

ЛР

Лев Рагулин... in Moscow Spark
San Francisco...
источник
2018 February 21

PK

Pavel Klemenkov in Moscow Spark
Так, ребятки и девчатки, на прошлой неделе состоялся вебинар Reynold Xin, который рассказывал про то, что нас ждет в релизе 2.3 http://go.databricks.com/databricks-runtime-4-with-apache-spark2-3. Я начал его слушать и постепенно буду излагать сюда мысли по этому поводу. Stay tuned
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Так, ребятки и девчатки, на прошлой неделе состоялся вебинар Reynold Xin, который рассказывал про то, что нас ждет в релизе 2.3 http://go.databricks.com/databricks-runtime-4-with-apache-spark2-3. Я начал его слушать и постепенно буду излагать сюда мысли по этому поводу. Stay tuned
стрим - стрим
источник
2018 February 26

KM

Kirill Malev in Moscow Spark
Привет. А как правильно инициализировать контекст спарка в fat jar ?
источник

KM

Kirill Malev in Moscow Spark
val conf = new SparkConf().setAppName(«YourAppName»).setMaster("yarn-client")
       val sc = new SparkContext(conf)
источник

KM

Kirill Malev in Moscow Spark
вот так?
источник