Size: a a a

2018 January 15

KM

Kirill Malev in Moscow Spark
нашёл настройку
источник
2018 January 20

TB

Torlin Bios in Moscow Spark
Кто нибудь сталкивался с чтением данных спарком из AdWords?
источник

PK

Pavel Klemenkov in Moscow Spark
А в чем проблема?
источник

TB

Torlin Bios in Moscow Spark
Спасибо, уже решил вопрос
источник
2018 February 07

PK

Pavel Klemenkov in Moscow Spark
Всем привет! Хочу поделиться с вами некоторыми мыслями и идеями. Во-первых, у Moscow Spark появился домен MOSCOWSPARK.ORG. Там пока ничего нет, но в ближайшую неделю-две, я запилю сайт, на который можно будет выложить презентации и выкладывать новости. Кстати, о новостях, я решил перебороть свою лень и регулярно (желательно раз в день) постить сюда свежие новости, блогпосты, вкусные треды про спарк с комментариями. Если у кого-то что-то интересное появится, то присылайте мне в личку (я опубликую и прокомментирую), либо постите прямо сами.
источник

PK

Pavel Klemenkov in Moscow Spark
Что касается митапа, он, конечно же будет. Скорее всего, в первой половине апреля. В связи с чем я объявляю набор докладов. Если у вас есть крутые кейсы использования спарка для решения бизнес- или академических задач, то велком в личку. Если рассказать что-то хочется, но не уверены, что будет интересно, не знаете как, тоже пишите, что-нибудь вместе придумаем
источник

ЛР

Лев Рагулин... in Moscow Spark
👍
источник

Ds

Dmitry says in Moscow Spark
Супер!
источник

JD

John Doe in Moscow Spark
💣
источник

PK

Pavel Klemenkov in Moscow Spark
Завтра главный архитектур Databricks Reynold Xin устраивает вебинар по фичам в версии 2.3. Регистрация бесплатная по ссылке https://www.brighttalk.com/webcast/12891/299531?utm_campaign=Databricks%20newsletter&utm_source=hs_email&utm_medium=email&utm_content=60520690&_hsenc=p2ANqtz-8E-WBZGP6zVHT8IrkN-BinsRTkRKSEZtl2Tzo0REWGa7L76AXZoABmR_gE6wT3mcUnnnGIz8eV0pmDWggajYUq7qn5jA&_hsmi=60520690
источник

PK

Pavel Klemenkov in Moscow Spark
Об одной из фишек нового релиза, которой особо порадуются питонисты, напишу завтра.
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
опять питонисты радоваться будут
источник

PK

Pavel Klemenkov in Moscow Spark
Гриш, ну ты же знаешь, как я скалу люблю) Давай ты будешь новости и комментарии для скалистов постить?
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
Хорошо)
источник

ЛР

Лев Рагулин... in Moscow Spark
Отлично! Очень нужны новости для скалистов
источник
2018 February 08

PK

Pavel Klemenkov in Moscow Spark
Всем, привет! Вчера обещал написать про фичу, которая порадует питонистов в грядущем релизе 2.3. Это фича - векторизованные UDF. Все, наверное, знают, что Spark становится реально хорош для питонистов, если пользоваться DataFrame и не пользоваться RDD. Потому что DataFrame API для PySpark - это просто тонкая обертка над скаловским рантаймом, которая не сериализует объекты на каждый чих. Подробнее об этом можно узнат в моем уроке по оптимизации вычислений на Spark https://www.coursera.org/learn/big-data-analysis/lecture/RvIwy/welcome

Так вот, магический и очень крутой проект Apache Arrow https://arrow.apache.org/ помог реализовать эту фишку. Интерфейс остался похожим, за исключением того, что векторизованные UDF-ки работают с pandas.Series. Бенчмарки показывают, что производительность растет от 3.5 до 250 раз в зависимости от задачи. Подробней можно почитать в этом посте https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html

@ser0t0nin , предлагаю вам потестить вашу уберджобу по напилке фичей для рекомендаций и поделиться результатами на следующем митапе!
источник

PK

Pavel Klemenkov in Moscow Spark
Ну и картинка с бенчмарками
источник

NU

Nikita U in Moscow Spark
Круто, если успеем - можно попробовать
источник