Size: a a a

2021 October 20

A

Alex in Moscow Spark
подозреваю что там ссд под кеш стоит
источник

A

Alex in Moscow Spark
а в ссд 3тб это часто много
источник

AS

Alexander Shorin in Moscow Spark
3PB, но эти условные 3TB распределяются на десяток нод и это не единственная задача на кластере. Другим тоже хочется, но они сильно скромнее и могут уживаться.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да, кстати кеш размазан по хдфс дискам или на отдельных?
источник

AS

Alexander Shorin in Moscow Spark
отдельные, но их не так чтобы много - хдфс важнее.
источник

ЕГ

Евгений Глотов... in Moscow Spark
И на нём томик тмп на 40 гигабайт😆
источник

A

Alex in Moscow Spark
ну такое лучше в хдфс хранить и по fuse монтировать
больше влезет
источник

ЕГ

Евгений Глотов... in Moscow Spark
Темп должен быть размером +-20% от размера хдфс
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чтобы без проблем работать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но чикать джобы на 3тб шафла по метрике тоже в целом норм решение, в тесноте, да не в обиде, редко для каких задач требуется действительно такой объём
источник

AS

Alexander Shorin in Moscow Spark
эм...т.е. нужно в tmp на каждой тачке дать примерно 4TB диск? дорого. физически.
источник

AS

Alexander Shorin in Moscow Spark
и вопрос не про то как такую задачу переварить, а про то как лучше расставить ограничители (если такие есть) чтобы прибивали задачи, которые не могут ну никак влезть в свои кэши и что-то пошло не так с логикой.
источник

NN

No Name in Moscow Spark
Не, пускай и детали инфраструктуры пообсуждают, полезно же для сообщества)
источник

AS

Alexander Shorin in Moscow Spark
Я не против, но основной вопрос надо бы напомнить (;
источник

A

Alex in Moscow Spark
насколько помню у нас это сделано сторонними скриптами
так как сам ярн в такое не умеет
источник

AS

Alexander Shorin in Moscow Spark
вот к тому же склоняемся, но была надежда что что-то не знаем.
источник

А

Александр in Moscow Spark
Привет комьюнити. Ищу ментора, репетитора, помощника по освоению spark в связке с hbase/Solr. Почасовая оплата. 5к/час для знающих тему. Желательно Python, так как могём. Основы знаем. Если есть кто может помочь с задачами, жду в личку (профиру ничего предложить не смог)
источник

A

Alex in Moscow Spark
в mapreduce тасках там была логика в самом таске трекать чтобы за лимиты не вылететь
а вот в спарке таких параметров не знаю

ярн тоже не делали ничего
источник

N

Nick in Moscow Spark
Привет. Как вариант, попробуйте сделать ревью кода и анализ плана, чтобы понять почему на шафле так много генерится. Возможно, гдет картезиан джойн закрался или данные надо по другому готовить, как вариант. 2 момент, если с кодом все ок, то подумать над вариантами хранения данных подключить партицию, бакеты, а может вообще разбивать данные по каком либо условию на разные таблицы и делать джойн кусками, возможно даже бродкастом и будет вам счастье
источник

N

Nick in Moscow Spark
Ну и последний вариант, у вас и правда много данных и пора расширяться
источник