если кто себе ещё будет делать:
Модельку научить очень легко, а вот датасет сложно обрабатывать. Есть диалоги, а есть тире. Отличить их тяжело, и надо решить в датасете, как вы это будете учитывать, иначе готовая модель предложение возьмёт и разобьёт как диалог.
А ещё дефис и тире отличаются на письме (хотя и не всегда), надо учитывать наличие пробелов вокруг. Скажем, я заменил в датасете " - " и "—" на " -- ". Юникодовые многоточия нужно нормализовывать, и некоторые другие символы.
Ну и принять решение нужно также по кавычкам (нормализация/игнорирование/их не использование для косвенной речи), знаки препинания "%", "$", "№" отнести не к предсказываемым знакам препинания, а к словам текста...