Телеграмм чат группы moscowspark страница 14

Всем привет! Хочу поделиться с вами некоторыми мыслями и идеями. Во-первых, у Moscow Spark появился домен MOSCOWSPARK.ORG. Там пока ничего нет, но в ближайшую неделю-две, я запилю сайт, на который можно будет выложить презентации и выкладывать новости. Кстати, о новостях, я решил перебороть свою лень и регулярно (желательно раз в день) постить сюда свежие новости, блогпосты, вкусные треды про спарк с комментариями. Если у кого-то что-то интересное появится, то присылайте мне в личку (я опубликую и прокомментирую), либо постите прямо сами.

источник

10:56пожаловаться #5

Pavel Klemenkov in Moscow Spark

Что касается митапа, он, конечно же будет. Скорее всего, в первой половине апреля. В связи с чем я объявляю набор докладов. Если у вас есть крутые кейсы использования спарка для решения бизнес- или академических задач, то велком в личку. Если рассказать что-то хочется, но не уверены, что будет интересно, не знаете как, тоже пишите, что-нибудь вместе придумаем

источник

10:57пожаловаться #6

ЛР

Лев Рагулин... in Moscow Spark

👍

источник

10:59пожаловаться #7

Dmitry says in Moscow Spark

Супер!

источник

11:07пожаловаться #8

John Doe in Moscow Spark

💣

источник

11:09пожаловаться #9

Pavel Klemenkov in Moscow Spark

Завтра главный архитектур Databricks Reynold Xin устраивает вебинар по фичам в версии 2.3. Регистрация бесплатная по ссылке https://www.brighttalk.com/webcast/12891/299531?utm_campaign=Databricks%20newsletter&utm_source=hs_email&utm_medium=email&utm_content=60520690&_hsenc=p2ANqtz-8E-WBZGP6zVHT8IrkN-BinsRTkRKSEZtl2Tzo0REWGa7L76AXZoABmR_gE6wT3mcUnnnGIz8eV0pmDWggajYUq7qn5jA&_hsmi=60520690

Brighttalk

What's New in the Upcoming Apache Spark 2.3 Release?

The upcoming Spark 2.3 release marks a big step forward in speed, unification, and API support.

Reynold Xin and Jules Damji from Databricks will walk through how you can benefit from the upcoming imp...

источник

20:29пожаловаться #10

Pavel Klemenkov in Moscow Spark

Об одной из фишек нового релиза, которой особо порадуются питонисты, напишу завтра.

источник

20:29пожаловаться #11

Grigory Pomadchin in Moscow Spark

sticker.webp

(7.92 Кб)

источник

20:32пожаловаться #12

Grigory Pomadchin in Moscow Spark

опять питонисты радоваться будут

источник

20:32пожаловаться #13

Pavel Klemenkov in Moscow Spark

Гриш, ну ты же знаешь, как я скалу люблю) Давай ты будешь новости и комментарии для скалистов постить?

источник

20:34пожаловаться #14

Grigory Pomadchin in Moscow Spark

sticker.webp

(11.85 Кб)

источник

22:25пожаловаться #15

Grigory Pomadchin in Moscow Spark

Хорошо)

источник

22:25пожаловаться #16

ЛР

Лев Рагулин... in Moscow Spark

Отлично! Очень нужны новости для скалистов

источник

22:49пожаловаться #17

2018 February 08

Pavel Klemenkov in Moscow Spark

Всем, привет! Вчера обещал написать про фичу, которая порадует питонистов в грядущем релизе 2.3. Это фича - векторизованные UDF. Все, наверное, знают, что Spark становится реально хорош для питонистов, если пользоваться DataFrame и не пользоваться RDD. Потому что DataFrame API для PySpark - это просто тонкая обертка над скаловским рантаймом, которая не сериализует объекты на каждый чих. Подробнее об этом можно узнат в моем уроке по оптимизации вычислений на Spark https://www.coursera.org/learn/big-data-analysis/lecture/RvIwy/welcome

Так вот, магический и очень крутой проект Apache Arrow https://arrow.apache.org/ помог реализовать эту фишку. Интерфейс остался похожим, за исключением того, что векторизованные UDF-ки работают с pandas.Series. Бенчмарки показывают, что производительность растет от 3.5 до 250 раз в зависимости от задачи. Подробней можно почитать в этом посте https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html

@ser0t0nin , предлагаю вам потестить вашу уберджобу по напилке фичей для рекомендаций и поделиться результатами на следующем митапе!

источник

11:01пожаловаться #18

Pavel Klemenkov in Moscow Spark

Ну и картинка с бенчмарками

источник

11:01пожаловаться #19

Nikita U in Moscow Spark

Круто, если успеем - можно попробовать

источник

11:06пожаловаться #20