Привет! Пытаюсь в генерацию текста с помощью LSTM сеточки (tf, keras) (чисто ради попробовать-поучиться). Скомпилировал пару туториалов на англ. под свой корпус на русском и качество не очень, и потому есть вопросы:
1) Посимвольная генерация - норм? В одном из туториалов была генерация по токенам, а мой словарь получился на 5 млн где-то - многовато.
2) Количество примеров и продолжительность обучения: учу на CPU, прогоняю 1-2 тысячи (2-5 средних абзацев) по 5 эпох. Насколько это неадекватно мало для того, чтобы ожидать нормальный результат? Есть советы, что в первую очередь поменять - снизить количество текстов и уменьшить количество эпох, или наоборот?