Подожди, ты на вход даёшь, картинку слова, получаешь букву?
да. Но я как бы и тренировал только буквы. Я пока пришел к выводу, что так как тренировал только центрированные буквы, то там attention вообще ничему не научился.
Я проверил эту гипотезу протестировав следующий случай на их оригинальной модели.
Взял слово из этих датасета, вырезал одну букву, и сделал ее "на весь экран", и их модель не смогла определить слово в размер одной буквы, хоть это sub_image картинки, которая у них в тренинге была.