Телеграмм чат группы natural_language

Не планируете?

планируем. выложим 2.2 обычный, потом скорость и качество с трансформером тоже надо померить. я что-то не знал, что трансформер аж +2% даёт.

19:09пожаловаться #1

тренировочный скрипт там будет практически один и тот же (компоненты меняются: нужно только вектора и BPE токены трансформеровские загрузить). в текущем spacy используются не все вектора, а только последнего токена, составляющего каждое слово, поэтому небольшая просадка может быть, надо будет это исследовать.

cnstntn kndrtv in Natural Language Processing

19:12пожаловаться #2

Планируете поддержку semgrexp? Удобная нотация

19:14пожаловаться #3

Rule-based matching · spaCy Usage Documentation

cnstntn kndrtv

Планируете поддержку semgrexp? Удобная нотация

если надо — сделай, в spacy есть свой https://spacy.io/usage/rule-based-matching/

Rule-based matching

Find phrases and tokens, and match entities

19:16пожаловаться #4

Ребята, если:

1. Вы уже работаете на Spacy и есть идея, чего там не хватает, и вы хотите этим заняться
2. Собственный проект (например на Pytorch), который возможно перенести на Spacy

То у меня есть отличная система грантов, мы сработаемся =) единственное требование - все надо будет выложить как опенсорс

Я присоединился к проекту Юрия (для адаптации и развития SpaCy под русский язык) некоторое время назад и уже есть хороший результат.

Мне это нужно по простой причине, я представляю крупную юридическую компанию, и 80% нашей работы, это обработка естественного языка (юридических консультаций), по этому у нас уникальная ситуация:
1. Мы готовы вкладывать деньги
2. Мы готовы развивать опенсорс
3. Мы не Яндекс и не хотим монополии на рынке машинного обучения

cnstntn kndrtv in Natural Language Processing

19:17пожаловаться #5

Rule-based matching · spaCy Usage Documentation

если надо — сделай, в spacy есть свой https://spacy.io/usage/rule-based-matching/

Rule-based matching

Find phrases and tokens, and match entities

Вроде это там есть, документации нет. https://github.com/explosion/spaCy/blob/master/spacy/matcher/dependencymatcher.pyx

GitHub

explosion/spaCy

💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython - explosion/spaCy

cnstntn kndrtv in Natural Language Processing

19:33пожаловаться #6

@yuri_baburov расскажите, как зависит проект ru_spacy от оригинального spacy? Это дополнение/расширение, отдельная ветка? Обновления в Spacy как быстро появляются в вашей либе?

19:36пожаловаться #7

cnstntn kndrtv

spacy — это набор моделей и определённых пайплайнов на нейросетевом фреймворке thinc .
spacy-ru — это модели и пайплайны для русского языка.
конечных цели две:
1) сделать совместимые с основным spacy модели для русского языка, а на сейчас в spacy входят следующие модели:
токенизация, POS tagging, лемматизация, dependency parsing, NER.
2) иметь пайплайны для практических задач русского NLP.
в первую очередь, это классификация (для неё в spacy есть аж три разных модели)
пока что модели не встроены в основной spacy, и они от него слабо зависят.
а не входят они потому, что используемые для английского языка фичи для многих из этих моделей дают не очень высокое качество на русском языке.
русские модели поэтому строят свои фичи.
если (когда) фичи законтрибутятся в основной spacy, можно будет напрямую положить туда и модели, а сейчас можно использовать или модели без этих фич (такие есть в ветке 2.1 и их можно использовать из ветки 2.2), или делать что-то типа monkey-patching чтобы подменить фичи на русские (это в процессе, будет в составе офиц релиза под 2.2).
а вот фичи под трансформер можно уже вставлять в основной spacy, там такой зависимости нет.

19:48пожаловаться #8

В общем - SpaCy настолько крутой, что мы его уже используем для разных задач, вроде расстановки знаков препинания, что определенно облегчит понимание текста выше =)

20:01пожаловаться #9

SpaCy имеет что-то вроде "интуиции" для русского языка, т.е. он вытягивает даже те задачи, в которых плохо обучен, и с большим зашумлением исходного текста, а не только текста из русской прозы.

20:03пожаловаться #10

Идея использовать spacy родилась при многих попытках обработать распознанный голос в текст (speech to text), который далек от идеального.

20:05пожаловаться #11

Пример, есть классная штука UDpipe, которая показывает хороший результат в DEP и POS, но совершенно не решает задачу NER. И все. Хоть что с ним делай.

20:09пожаловаться #12

для меня SpaCy - это универсальный адаптер для разных технологий, если завтра появится некая технология, которая позволяет решать определенную задачу лучше, она появится в SpaCy

Sergey Shulga in Natural Language Processing

20:10пожаловаться #13

Vladimir R

А как вы используете для этого именно spacy?

22:30пожаловаться #14

Sergey Shulga

А как вы используете для этого именно spacy?

Это немного подправленная задача POS.

Sergey Shulga in Natural Language Processing

22:40пожаловаться #15

Это немного подправленная задача POS.

А в коробку не хотите такую штуку

22:43пожаловаться #16

Sergey Shulga

А в коробку не хотите такую штуку

Будет опенсорсный, там не сложно же, точнее, сложно сейчас лишь Спейси для этого подправить. Но плюс именно от Спейси -- ещё и высокая скорость. Правда, такая высокая скорость и не нужна именно для этой задачи.

Sergey Shulga in Natural Language Processing

22:46пожаловаться #17

Ну как сказать, потому того и хочется в Спейси, так как скорость высокая. И иногда она нужна.

Илюша in Natural Language Processing

22:47пожаловаться #18

2020 March 10

Всем привет, есть типовая задача NER: необходимо вычленять атрибуты заказов (фио, адреса, телефон, дата и.т.д.) из сообщений электронной почты. (обработку, хранение, вычленение подписи реализовал)

Примерно так представляю NER реализацию:
- написание парсеров для выделение атрибутов заказа из тела письма/таблиц (yargy/natasha, Pullenti...)
- Разметка тегами атрибуты в тексте для тренировочных данных
- тренировка модели (keras, pytorch)

Подскажите, пожалуйста, может быть есть путь оптимальнее? Например, сразу пробовать с spacy? ранее с spacy не работал.

10:53пожаловаться #19

"Подскажите, пожалуйста, может быть есть путь оптимальнее? Например, сразу пробовать с spacy? ранее с spacy не работал."

для SpaCy нужно меньше примеров, если брать обученную модель, вроде бы хороший результат даже если будет около сотни, дальше можно идти active learning

при этом никакой предварительной обработки не требуется

разметку можно делать через doccano, скоро к нему допишем модуль для автоматизации разметки