
вопрос:
Есть модель, которая в сумме состоит из нескольких моделей, соответствующих каждому из этих пунктов.
К примеру, я использую:
TPS-ResNet-Bi-LSTM-Attn.
Эта модель в изначальной авторской версии тренировалась для распознавания слов, поэтому ее инпут был слова с лейбелами.
У меня была идея попробовать натренировать модель с буквами (тогда в целом Bi-LSTM имеет мало смысла, кроме как для букв состоящих из нескольких символов с разрывом, типо например на русском буквы "ы",так как есть последовательность внутри одного символа, для чего и дан Bi-LSTM = для последовательностей),
и после попробовать ивалюировать на словах (одно или два слова на картинку, вместо одной буквы на тренинге).
Результат мини-эксперимента:
Натренировал модель до около 70% точности на буквах.
Запустил на слова и получил:
1. на каждое слово - предикция одна буква, в общем не то, что хотелось.
Теперь мое понимание результата.
1. Модель видела только буквы в отдельности, то есть Attention практически атрофированный, Bi-LSTM