@alexkuk Александр, добрый день!
Спасибо за препринт, очень интересно прочесть! Хотел бы задать несколько вопросов; я совсем недавно в теме анализа текстов, поэтому вопросы могут быть немного noobie, заранее прошу прощения. Это ни в коем случае не критика работы! Был бы очень признатален вам за ответы - мне по-настоящему хочется разобраться в этой технологии.
1. "Из открытого мне известен только Томито-парсер и свежий Deepmipt NER..." - вы видели
https://github.com/zamgi/lingvo--Ner-ru? Или это не то, и я путаю?
2. "В статье показано, как использовать готовые правила..." - расскажите, пожалуйста, по вашему опыту, что с этой библиотекой НЕ стоит делать, для чего она НЕ подходит? Чтобы как-то очертить границы применимости.
3. "Пользователю недоступны никакие настройки" (про интерфейс) - вы хотите сказать, что надо форкать репозиторий и патчи-патчи-патчи, а "из коробки" настроек нет (в смысле нет передачи параметров в функции)? Кстати, Наташа "тащит" Yargy?
4. "Часто приходится опускаться на уровень ниже, дополнять готовые правила" - то есть дописывать именно Yargy, мимо Наташи? А там какая лицензия? В чём смысл Наташи помимо того, что она - удобная обёртки для Yargy? Из каких компонент она состоит и как устроено её взаимодействие с Yargy? Если этого нет в документации (я пока не смотрел) - туториал из э маст.
5. (по картинкам) Что такое R0, R1...? Это сокращение от "Relative"? Не понимаю :(
6. "Если нужно извлечь из текста, например, только даты, стоит выбрать готовую специализированную библиотеку." - то есть теоретически 10 "узко заточенных" решений аутперформят Наташу? Тогда почему не рекламировать бандл из 10, если performance is an issue? Может быть, каких-то "узко заточенных" просто нет для русского... Просветите, плиз. И, кстати! какой шаг пайплайна анализа (грамматики->интерпретация->согласование) самый длинный относительно всего?
7. "Yargy нужен для объемных нестандартных задач". Учитывая, что есть консерны по перформансу, интересно было бы прочесть, какую производительность (в знаках на секунду) из неё можно выжать с обычного свежего Макбука Про. Понимаю, что "горизонтально масштабируется", но зарплата так не масштабируется :) Поделитесь, пожалуйста (если не секрет), какой стек технологий вы используете для распараллеливания?
8. "Мы надеемся, что сообщество поможет улучшить точность и полноту правил" - как конкретно вам можно помочь и что для этого сделать? :)
Параллельно у меня составился список стилистических правок, но, наверное, я и так вас загрузил, плюс они могут быть неуместны, поэтому оставлю при себе.
Спасибо вам за терпиливое чтение. :)
С уважением,
Никита
P.S. Букву "а" в первом параграфе части "Интерпретация" в слове парсер нужно приписать.