Телеграмм чат группы moscowspark страница 180

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 September 23

ДА

Джумурат Александр... in Moscow Spark

Вот есть у меня Spark-кластер (спасибо Cloudera за это) , параллельно спарку живёт Presto для аналитиков
Насколько это критично? Как сделать так, чтобы они не дрались за ресурсы?

источник

10:41пожаловаться #1

AA

Anton Alekseev in Moscow Spark

Подскажите гудпрактисы как запилить замер времени внутри pyspark app грамотно (на постоянную основу). Например, если завернуть интересные блоки в самописный timeit, а перед выходом из блока инициализировать расчеты фреймов типа count() или сброс на диск, это вообще как?)

источник

15:48пожаловаться #2

S

Stanislav in Moscow Spark

Джумурат Александр

Вот есть у меня Spark-кластер (спасибо Cloudera за это) , параллельно спарку живёт Presto для аналитиков
Насколько это критично? Как сделать так, чтобы они не дрались за ресурсы?

в чатике датаинженеров буквально 3 дня назад был такой же вопрос https://t.me/hadoopusers

Data Engineers

Взаимное уважение и без спама. Только технические вопросы
Вакансии: @datajobschannel
Moscow Spark Meetup: @moscowspark
English group: @dataengi
Jobs: @datajobs
Jobs Channel: @datajobschannel

источник

15:51пожаловаться #3

AA

Anton Alekseev in Moscow Spark

Anton Alekseev

Подскажите гудпрактисы как запилить замер времени внутри pyspark app грамотно (на постоянную основу). Например, если завернуть интересные блоки в самописный timeit, а перед выходом из блока инициализировать расчеты фреймов типа count() или сброс на диск, это вообще как?)

Или через https://github.com/LucaCanali/sparkMeasure идти например?

LucaCanali/sparkMeasure

This is the development repository of SparkMeasure, a tool for performance troubleshooting of Apache Spark workloads. It simplifies the collection and analysis of Spark task metrics data. - LucaCan...

источник

16:03пожаловаться #4

KS

Kostya Shchetkin in Moscow Spark

Anton Alekseev

Или через https://github.com/LucaCanali/sparkMeasure идти например?

LucaCanali/sparkMeasure

This is the development repository of SparkMeasure, a tool for performance troubleshooting of Apache Spark workloads. It simplifies the collection and analysis of Spark task metrics data. - LucaCan...

а просто враппер с логгером не хочешь? потом можно в условном airflow смотреть время логов

источник

18:02пожаловаться #5

A

Anton Lebedevich in Moscow Spark

Anton Alekseev

Подскажите гудпрактисы как запилить замер времени внутри pyspark app грамотно (на постоянную основу). Например, если завернуть интересные блоки в самописный timeit, а перед выходом из блока инициализировать расчеты фреймов типа count() или сброс на диск, это вообще как?)

можно спарковый event log попарсить, там все входы и выходы из jobs/stages записаны

источник

18:03пожаловаться #6

AA

Anton Alekseev in Moscow Spark

Kostya Shchetkin

а просто враппер с логгером не хочешь? потом можно в условном airflow смотреть время логов

Так и делаем, но чтобы время было реальным нужно как-то пнуть исполнение дага, иначе последний блок выходит самым долгим.

источник

18:33пожаловаться #7

KS

Kostya Shchetkin in Moscow Spark

а, понял

источник

18:34пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Anton Lebedevich

можно спарковый event log попарсить, там все входы и выходы из jobs/stages записаны

Хочется получать именно время общей логической единицы, а она может много стейджей включать. Я так понимаю в эвент лог py-команда никак не прорастает, чтобы можно было соотнести блоки.

источник

18:35пожаловаться #9

A

Anton Lebedevich in Moscow Spark

https://github.com/sashgorokhov/pyspark-sugar тут просовывают инфу о логических блоках, но для другого

sashgorokhov/pyspark-sugar

Set python traceback on dataframe actions, enrich spark UI with actual business logic stages of spark application. - sashgorokhov/pyspark-sugar

источник

18:38пожаловаться #10

2019 September 26

AA

Anton Alekseev in Moscow Spark

Anton Lebedevich

https://github.com/sashgorokhov/pyspark-sugar тут просовывают инфу о логических блоках, но для другого

sashgorokhov/pyspark-sugar

Set python traceback on dataframe actions, enrich spark UI with actual business logic stages of spark application. - sashgorokhov/pyspark-sugar

Спасибо. Позаимствовал оттуда выставление групп. По результатом ресеча выглядит так что парсинг эвент логов все-таки оверхед, необходимый для дебага. При этом получаю довольно значимое расхождение времени исполнения с инициализацией расчетов насильно, и пассивно в конце пайплайна (даже с учетом оверхеда на count в роли инициализации), хотя по идее стейджы принадлежащие определённой группе после аггрегации (самописной) должны давать одно время, независимо есть ли инициализация или нет. (тут либо я с парсером накосячил, либо спарк по хитрому оптимизирует даг). Для логгирования на постоянной основе (для мониторинга) выглядит, что простой декоратор timeit с насильной инициализацией (естественно не везде где душе угодно, а реально жирных кусков пайплайна) выглядит норм решением.

источник

12:18пожаловаться #11

2019 September 27

PK

Pavel Klemenkov in Moscow Spark

Всем привет. А вот такой вопрос. Есть on-prem кластер спарка и кластер в датабриксе. Хочется, чтобы в одном питоновском интерпретаторе можно было бы поднять две спарк сессии к этим кластерам. Вроде как такое из коробки не работает, кто-то упражнялся?

источник

12:56пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Сессия - синглтон

источник

12:58пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Хотя через livy мне как-то удалось запустить две сессии в одной тетрадке, не то, чтобы это было то, что я хотел😆

источник

12:59пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Но можно попробовать, spark magic kernels что ли называется

источник

13:00пожаловаться #15

2019 September 30

C

Combot in Moscow Spark

BNB Giveway has been banned! Reason: CAS ban.

источник

12:08пожаловаться #16

2019 October 03

EN

Eldar Nezametdinov in Moscow Spark

Давно не было в этом чате тупых вопросов.
Есть вопрос по спарку. Представьте что есть цепочка из тридцати модулей и они сохраняют промежуточные результаты в хдфс. По сути их цель - это обработать батч и выдать результат.
Сейчас эта цепочка аппликейшенов с промежуточными записью\чтением отрабатывает за 2 часа.
Есть большое предположение, что если убрать лишних 30 запись\чтение на HDD, то скорость пайплана возрастет.
Но такое можно достичь только объединением в один аппликейшн. Или есть еще какие-то варианты?
Как хранить в памяти результат и не скидывать на диск... И мб шарить между приложениями)
Объединять большую бизнес логику в одном приложении тоже не хочется... Сложно будет дебажить..
...
Понимаю что пишу треш, но вы, наверно, поняли в чем суть...

источник

15:50пожаловаться #17

PK

Pavel Klemenkov in Moscow Spark

tmpfs? )

источник

15:52пожаловаться #18

EN

Eldar Nezametdinov in Moscow Spark

а оно вообще надо? работает на кластере со спарком? что-то вообще гугл ничего нормального не говорит...

в общем, вот сама идея объединить модули ради сокращения кол-ва записей\чтения это норм?
мб даже не стоит пытаться оптимизировать этот момент?
может замерить как-то можно сколько у приложения занимает запись/чтение?

источник

16:02пожаловаться #19

РА

Рамиль Ахмадеев... in Moscow Spark

замерить можно например профайлером

источник

16:02пожаловаться #20