Телеграмм чат группы moscowspark страница 865

подозреваю что там ссд под кеш стоит

01:50пожаловаться #1

а в ссд 3тб это часто много

01:50пожаловаться #2

3PB, но эти условные 3TB распределяются на десяток нод и это не единственная задача на кластере. Другим тоже хочется, но они сильно скромнее и могут уживаться.

01:50пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Да, кстати кеш размазан по хдфс дискам или на отдельных?

01:51пожаловаться #4

отдельные, но их не так чтобы много - хдфс важнее.

01:51пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

И на нём томик тмп на 40 гигабайт😆

01:51пожаловаться #6

ну такое лучше в хдфс хранить и по fuse монтировать
больше влезет

01:52пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Темп должен быть размером +-20% от размера хдфс

01:52пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Чтобы без проблем работать

01:52пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Но чикать джобы на 3тб шафла по метрике тоже в целом норм решение, в тесноте, да не в обиде, редко для каких задач требуется действительно такой объём

01:53пожаловаться #10

эм...т.е. нужно в tmp на каждой тачке дать примерно 4TB диск? дорого. физически.

01:54пожаловаться #11

и вопрос не про то как такую задачу переварить, а про то как лучше расставить ограничители (если такие есть) чтобы прибивали задачи, которые не могут ну никак влезть в свои кэши и что-то пошло не так с логикой.

01:55пожаловаться #12

No Name in Moscow Spark

Не, пускай и детали инфраструктуры пообсуждают, полезно же для сообщества)

01:56пожаловаться #13

Я не против, но основной вопрос надо бы напомнить (;

01:57пожаловаться #14

насколько помню у нас это сделано сторонними скриптами
так как сам ярн в такое не умеет

01:57пожаловаться #15

вот к тому же склоняемся, но была надежда что что-то не знаем.

02:00пожаловаться #16

Александр in Moscow Spark

Привет комьюнити. Ищу ментора, репетитора, помощника по освоению spark в связке с hbase/Solr. Почасовая оплата. 5к/час для знающих тему. Желательно Python, так как могём. Основы знаем. Если есть кто может помочь с задачами, жду в личку (профиру ничего предложить не смог)

02:09пожаловаться #17

в mapreduce тасках там была логика в самом таске трекать чтобы за лимиты не вылететь
а вот в спарке таких параметров не знаю

ярн тоже не делали ничего

02:10пожаловаться #18

Nick in Moscow Spark

Привет. Как вариант, попробуйте сделать ревью кода и анализ плана, чтобы понять почему на шафле так много генерится. Возможно, гдет картезиан джойн закрался или данные надо по другому готовить, как вариант. 2 момент, если с кодом все ок, то подумать над вариантами хранения данных подключить партицию, бакеты, а может вообще разбивать данные по каком либо условию на разные таблицы и делать джойн кусками, возможно даже бродкастом и будет вам счастье

10:58пожаловаться #19

Nick in Moscow Spark

Ну и последний вариант, у вас и правда много данных и пора расширяться