мы вобще в нашем микрокластере пришли к решению, когда manage сервисы всех решений крутятся на 2-3 выделенных нодах, а весь компьют\сторадж ровно размазан по остальным нодам.
Нам надо сделать приложение, работающее с HDFS\Hive но нужно поддерживать несколько дистрибутивов (Hortonworks\Cloudera\IBM) и стоит вопрос как избежать jar hell работая с либьами самого хадупа в кластере. Есть какие-то best practise? Посоветуйте
есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?
есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?