Мне кажется, для разделения на буквы можно уже что-то найти и тогда, добавить к твоему пайплайну. Возможно, даже через cv можно попробовать. Или реально собирать данные из слов.
если это модель, то она скорее всегда будет также тренироваться, дайте слова с лейбелами, научимся буквы определять. А любое unsupervised, там кластеринг и т.д, мне кажется под железками оптимизации параметров будет все равно основной фичер это пробел между букв, который как я отметил, когда писанина, не всегда есть.