Size: a a a

2019 June 13

YG

Yuriy Gavrilov in Moscow Spark
Pavel Klemenkov
И первое выступление Daniel Tomes (Databricks) Apache Spark Core—Deep Dive—Proper Optimization. Я, если честно, ждал этого выступления, потому что тема оптимизации Спарка для меня очень интересна, мне часто задают вопросы по этой теме и я перелопатил довольно много материалов. Так вот все они довольно поверхностные, в стиле капитана очевидность. Да и вообще по оптимизации довольно мало материала. Даже книжка Холдена High Perofrmance Spark какая-то ниочемная. В общем этого выступления я ждал и не разочарован. Наверное это первый материал, в котором, например, нормально рассказывают про UI, куда смотреть и на что обращать внимание. Много технических деталей, например про spill на диск. Но и практических советов предостаточно. В общем highly recomend. При этом материал действительно advanced, поэтому хорошее понимание кишочек - важно https://www.youtube.com/watch?v=daXEp4HmS-E
👍🙏🏻
источник
2019 June 20

DG

Denis Gabaydulin in Moscow Spark
Всем привет.
В недрах некоторых оконных функций есть такая конструкция:

object SizeBasedWindowFunction {
 val n = AttributeReference("window__partition__size", IntegerType, nullable = false)()
}

Она позволяет "знать" кол-во элементов в партиции внутри оконной функции и не вычилять pipeline для этого дважды.

Вопрос. Что это, откуда берется и можно ли как-то получить к ней доступ в "обычном" коде?

Зачем?
Иногда приходится писать свои функции (потому что спарковые на каталисте падают с разными неприятными ошибками вида: не могу аллоцировать страничку памяти).

На старом добром mapPartitions такие функции получается писать сейчас только за 2 прохода (сначала узнать кол-во элементов, а потом сделать что-то с каждым).
источник
2019 June 21

С

Сюткин in Moscow Spark
Ребят а кто-нибудь выкачивал данные из hive2teradata в несколько потоков в таблицу?
источник
2019 June 24

E

Eugene in Moscow Spark
Сюткин
Ребят а кто-нибудь выкачивал данные из hive2teradata в несколько потоков в таблицу?
Валера, а в чем, проблема?
источник
2019 June 25

EN

Eldar Nezametdinov in Moscow Spark
Мужики, есть проблема. Не понимаю почему из зеппелина стартует Спарк аппликейшн, и съедает 6гб оперативки...
Куда смотреть?
в spark2 включен dynamicAllocation, но все равно откуда такое число 6гб?
источник

EN

Eldar Nezametdinov in Moscow Spark
На проде один зеппелин вообще 300гб съел, тоже не понимаю как там это вышло...
источник

SS

Semyon Sinchenko in Moscow Spark
Eldar Nezametdinov
Мужики, есть проблема. Не понимаю почему из зеппелина стартует Спарк аппликейшн, и съедает 6гб оперативки...
Куда смотреть?
в spark2 включен dynamicAllocation, но все равно откуда такое число 6гб?
А что там в параметрах zeppelin интерпретаторов? Там можно добавить параметры, типа maxExecutors, executors.memory и тд
источник

SS

Semyon Sinchenko in Moscow Spark
Параметры прямо из морды настраиваются
источник

EN

Eldar Nezametdinov in Moscow Spark
spark.driver.memory - 512mb
spark.executor.memory - 2gb
в ярне отображается как 3 контейера (1gb, 2.5gb, 2.5gb)
min container size 512mb в ярне
источник

SS

Semyon Sinchenko in Moscow Spark
Ну так и получается 6gb же... А что там конкретно висит - это надо логи смотреть. Или 6гб это сразу после запуска?
источник

EN

Eldar Nezametdinov in Moscow Spark
6гб сразу выделяется, когда допустим выполнил ячейку 1+1
почему 6гб должно получиться?
источник

EN

Eldar Nezametdinov in Moscow Spark
2гб+memoryOverhead, 2гб+memoryOverhead
почему один контейр 1гб? под мастер?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Под мастер
источник

ЕГ

Евгений Глотов... in Moscow Spark
У цеппелина по умолчанию 2 экзекутора настроено
источник

EN

Eldar Nezametdinov in Moscow Spark
ну ок спасибо, более яснее стало) завтра еще спрошу))
источник
2019 June 26

DZ

Dmitry Zuev in Moscow Spark
А кто что для лемматизации русских текстов использует? лучше java/scala, нежели питон
источник

PK

Pavel Klemenkov in Moscow Spark
Самая лучшая лемматизация - модельная, поэтому точно не скала)
источник

DZ

Dmitry Zuev in Moscow Spark
Ну мда. Мы используем pymorphy, но к этому есть вопросы
источник

PK

Pavel Klemenkov in Moscow Spark
Dmitry Zuev
Ну мда. Мы используем pymorphy, но к этому есть вопросы
Сейчас SOTA, думаю, в spacy реализована. А какие вопросы к pymorphy?
источник

DZ

Dmitry Zuev in Moscow Spark
Не оч быстро, плюс пока у нас датапрок, кластер он деманд приходится инитить кастомно (лень сделать образ).
источник