Я тут полез вчера разбираться с этим. Выяснилось, что когда YARN думает, что занято 13 Тб, по факту суммарный объем всех хипов во всех очередях где-то 2,8-3. Получается, оверкоммит можно раза в 3 минимум сделать.
взвешивая два риска - 1) вы сделаете memory overcommit и будете ловить OOM и 2) вы уменьшите контейнер и будете ловить тормоза на IO - с позиции опса я бы выбрал второе, особенно если кластер под пайплайны, а не ад-хок