думаю, многим интересно, что происходит со spacy-ru, поэтому расскажу в двух словах:
- обучение из CLI в spacy 2.1 и 2.2 сломано (поэтому, у меня сделано через скрипт)
- хочется добавить аугментации для трибанков POS/DEP (не сделано)
- хочется несколько NER объединить в одной модели, т.к. самый крупный датасет размечен только на PERSON, ORG, LOC (сделано вчерновую, т.к. там есть нюансы).
- в spacy для многих языков с большим количеством морфологии низкая точность, т.к. фичи для языков — неоптимальные (т.к. не поддерживается fasttext, что мог бы эти фичи успешно заменить), вот мой issue по этому поводу:
https://github.com/explosion/spaCy/issues/4815способ для фикса придуман, он рабочий, правда, есть два разных варианта: делать более быстрый стемминг через snowball (модуль pystemmer) или более медленную лемматизацию через pymorphy2 . оба способа работают, но я их ещё не сравнивал. что думаете?
такая пред-лемматизация через pymorphy2 даёт максимум 10к-15к слов/сек, что предположительно замедлит spacy с 8к слов/сек до 5к-6к слов/сек. этого не хотелось бы.
я тестирую эффект на задаче классификации, и получаю точность 65% без стемминга, 70% со стеммингом, 71% с лемматизацией, но эксперимент был не очень чистый, (этот 1% может быть из-за грязноты эксперимента)