Эту либу знаю и использую для других задач. В данном случае подобный классификатор на очень подходит. Особенно если учесть размер документов. Меня ведь не тематика интересует или окрас текста (да за них в этой задаче и цепляться нельзя, это будет преимущественно шум, так как тематика может быть одна для нескольких типов), скорее речь идёт об особенностях структуры документа.
А что вы понимаете под структурой документа? Ничего мне не мешает оформить договор по структуре, напоминающий протокол ОСА, или устав оформить, который будет напоминать договор. В юридической практике "тип документа" определяется по существу его содержания, а не по форме.