@yuri_baburov расскажите, как зависит проект ru_spacy от оригинального spacy? Это дополнение/расширение, отдельная ветка? Обновления в Spacy как быстро появляются в вашей либе?
spacy — это набор моделей и определённых пайплайнов на нейросетевом фреймворке thinc .
spacy-ru — это модели и пайплайны для русского языка.
конечных цели две:
1) сделать совместимые с основным spacy модели для русского языка, а на сейчас в spacy входят следующие модели:
токенизация, POS tagging, лемматизация, dependency parsing, NER.
2) иметь пайплайны для практических задач русского NLP.
в первую очередь, это классификация (для неё в spacy есть аж три разных модели)
пока что модели не встроены в основной spacy, и они от него слабо зависят.
а не входят они потому, что используемые для английского языка фичи для многих из этих моделей дают не очень высокое качество на русском языке.
русские модели поэтому строят свои фичи.
если (когда) фичи законтрибутятся в основной spacy, можно будет напрямую положить туда и модели, а сейчас можно использовать или модели без этих фич (такие есть в ветке 2.1 и их можно использовать из ветки 2.2), или делать что-то типа monkey-patching чтобы подменить фичи на русские (это в процессе, будет в составе офиц релиза под 2.2).
а вот фичи под трансформер можно уже вставлять в основной spacy, там такой зависимости нет.