Телеграмм чат группы moscowspark страница 134

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 June 13

YG

Yuriy Gavrilov in Moscow Spark

Pavel Klemenkov

И первое выступление Daniel Tomes (Databricks) Apache Spark Core—Deep Dive—Proper Optimization. Я, если честно, ждал этого выступления, потому что тема оптимизации Спарка для меня очень интересна, мне часто задают вопросы по этой теме и я перелопатил довольно много материалов. Так вот все они довольно поверхностные, в стиле капитана очевидность. Да и вообще по оптимизации довольно мало материала. Даже книжка Холдена High Perofrmance Spark какая-то ниочемная. В общем этого выступления я ждал и не разочарован. Наверное это первый материал, в котором, например, нормально рассказывают про UI, куда смотреть и на что обращать внимание. Много технических деталей, например про spill на диск. Но и практических советов предостаточно. В общем highly recomend. При этом материал действительно advanced, поэтому хорошее понимание кишочек - важно https://www.youtube.com/watch?v=daXEp4HmS-E

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What is the "right" size for your spark partitions and files? Why does a job slow down with only a few tasks left and never finish? Why doesn't adding nodes decrease my compute time?

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks
Instagram: https://www.instagram.com/databricksinc/

👍🙏🏻

источник

15:21пожаловаться #1

2019 June 20

DG

Denis Gabaydulin in Moscow Spark

Всем привет.
В недрах некоторых оконных функций есть такая конструкция:

object SizeBasedWindowFunction {
val n = AttributeReference("window__partition__size", IntegerType, nullable = false)()
}

Она позволяет "знать" кол-во элементов в партиции внутри оконной функции и не вычилять pipeline для этого дважды.

Вопрос. Что это, откуда берется и можно ли как-то получить к ней доступ в "обычном" коде?

Зачем?
Иногда приходится писать свои функции (потому что спарковые на каталисте падают с разными неприятными ошибками вида: не могу аллоцировать страничку памяти).

На старом добром mapPartitions такие функции получается писать сейчас только за 2 прохода (сначала узнать кол-во элементов, а потом сделать что-то с каждым).

источник

10:43пожаловаться #2

2019 June 21

С

Сюткин in Moscow Spark

Ребят а кто-нибудь выкачивал данные из hive2teradata в несколько потоков в таблицу?

источник

17:14пожаловаться #3

2019 June 24

E

Eugene in Moscow Spark

Сюткин

Ребят а кто-нибудь выкачивал данные из hive2teradata в несколько потоков в таблицу?

Валера, а в чем, проблема?

источник

17:04пожаловаться #4

2019 June 25

EN

Eldar Nezametdinov in Moscow Spark

Мужики, есть проблема. Не понимаю почему из зеппелина стартует Спарк аппликейшн, и съедает 6гб оперативки...
Куда смотреть?
в spark2 включен dynamicAllocation, но все равно откуда такое число 6гб?

источник

17:07пожаловаться #5

EN

Eldar Nezametdinov in Moscow Spark

На проде один зеппелин вообще 300гб съел, тоже не понимаю как там это вышло...

источник

17:08пожаловаться #6

SS

Semyon Sinchenko in Moscow Spark

Eldar Nezametdinov

Мужики, есть проблема. Не понимаю почему из зеппелина стартует Спарк аппликейшн, и съедает 6гб оперативки...
Куда смотреть?
в spark2 включен dynamicAllocation, но все равно откуда такое число 6гб?

А что там в параметрах zeppelin интерпретаторов? Там можно добавить параметры, типа maxExecutors, executors.memory и тд

источник

17:11пожаловаться #7

SS

Semyon Sinchenko in Moscow Spark

Параметры прямо из морды настраиваются

источник

17:12пожаловаться #8

EN

Eldar Nezametdinov in Moscow Spark

spark.driver.memory - 512mb
spark.executor.memory - 2gb
в ярне отображается как 3 контейера (1gb, 2.5gb, 2.5gb)
min container size 512mb в ярне

источник

17:14пожаловаться #9

SS

Semyon Sinchenko in Moscow Spark

Ну так и получается 6gb же... А что там конкретно висит - это надо логи смотреть. Или 6гб это сразу после запуска?

источник

17:16пожаловаться #10

EN

Eldar Nezametdinov in Moscow Spark

6гб сразу выделяется, когда допустим выполнил ячейку 1+1
почему 6гб должно получиться?

источник

17:20пожаловаться #11

EN

Eldar Nezametdinov in Moscow Spark

2гб+memoryOverhead, 2гб+memoryOverhead
почему один контейр 1гб? под мастер?

источник

17:20пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Под мастер

источник

17:21пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

У цеппелина по умолчанию 2 экзекутора настроено

источник

17:21пожаловаться #14

EN

Eldar Nezametdinov in Moscow Spark

ну ок спасибо, более яснее стало) завтра еще спрошу))

источник

17:33пожаловаться #15

2019 June 26

DZ

Dmitry Zuev in Moscow Spark

А кто что для лемматизации русских текстов использует? лучше java/scala, нежели питон

источник

10:44пожаловаться #16

PK

Pavel Klemenkov in Moscow Spark

Самая лучшая лемматизация - модельная, поэтому точно не скала)

источник

11:11пожаловаться #17

DZ

Dmitry Zuev in Moscow Spark

Ну мда. Мы используем pymorphy, но к этому есть вопросы

источник

11:28пожаловаться #18

PK

Pavel Klemenkov in Moscow Spark

Ну мда. Мы используем pymorphy, но к этому есть вопросы

Сейчас SOTA, думаю, в spacy реализована. А какие вопросы к pymorphy?

источник

11:49пожаловаться #19

DZ

Dmitry Zuev in Moscow Spark

Не оч быстро, плюс пока у нас датапрок, кластер он деманд приходится инитить кастомно (лень сделать образ).

источник

11:50пожаловаться #20