Вы обрезаете mediabox. По факту ничего не обрезалось, только то, что выводится на mediabox. А то, что осталось на artbox продолжает парситься.
Суть такая: PDF - это контейнер, в котором лежит кучка объектов, которые координатами привязаны к артбоксу и медиабокусу, но обрезка их не уничтожает, а просто они пропадают из поля видимости пользователя, принтера. Артбокс и медиабокс могут иметь совсем разные границы и размеры, и могут вообще не пересекаться, это приводит к разного рода коллизиям - на экране видно одно, а на печать выводится совсем другое.
Решение: обрезаем, конвертируем в растр, распознаем. Другое решение: находим какие-то признаки, по которым можно идентифицировать текст, который хотим парсить.