Продублирую то, что писал
@dveselov . Это вещи которые мне самому было бы интересно сделать.
https://github.com/bureaucratic-labs/models библиотека для сегментации русского текста на предложения и слова. Эта задача часто встречается. Люди про неё спрашивают. Нормального инструмента для русского мне не известно, поэтому инициатива по-моему полезная. Вот что, мне кажется, было бы полезно сделать
1. Написано, что качество >98%. Было бы интересно знать какое качество у супер-простых подходов: разбить по пробелу, по точке. Какое качество у чего-нибудь посложнее: у регулярок как в yargy.tokenizer у правил типа
http://ideone.com/pNpffv2. Нужен простой интерфейс. Можно как у yargy.tokenizer
3. Интересно посмотреть на ошибки. И на случаи где простые методы ошибаются, а CRF нет
4. Интересно посмотреть на замеры скорости. И сравнить с супер простыми методами