Это невозможно по причине теории информации, ты не сможешь извлечь новую информацию о том, какие ошибки одной модели нужно отсечь на основании только этих двух измерений, т.е. ты просто не создаешь новую информацию. Это хороший теоретический и достаточно очевидный в целом вопрос.
Здесь я точно не соглашусь.
Если разные предсказатели обучены на разных наборах данных, то ( в определённом приближении) ансамбль таких предсказателей будет частным случаем Blending'а.
Например, один классификатор хорошо находит одни типы организаций, другой — другие. Если объединим результаты, получим большую полноту.
Но это, конечно, в идеальных условиях. Как Вы верно заметили, непонятно как учитывать ошибки моделей. М.б., как мне предложили ранее здесь, брать три модели и ставить label, на который указывает большинство моделей. Или на основании результатов одиночного тестирования моделей построить методику, какой модели в какой ситуации отдавать предпочтение.