Телеграмм чат группы natural_language_processing страница 521

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 December 24

SZ

Sergey Zakharov in Natural Language Processing

А как в spaCy правильно применить несколько NER моделей к одному и тому же тексту? Я не смог разобраться по доке. Там есть примеры для одной модели, которые я и использую в своём коде, то есть как-то так:

import spacy
nlp = spacy.load("model")
doc = nlp("some_text")

Я раньше пользовался одной моделью, чтобы достать одну именованную сущность. Теперь у меня появилось ещё две модели, каждая под свою сущность. Как мне правильно к одному и тому же тексту применить три модели, чтобы все три сущности были размечены в объекте типа doc?
Версия spaCy у меня 2.1.8, потому что 2.2 я не могу использовать из-за одного бага там

источник

13:59пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

Sergey Zakharov

А как в spaCy правильно применить несколько NER моделей к одному и тому же тексту? Я не смог разобраться по доке. Там есть примеры для одной модели, которые я и использую в своём коде, то есть как-то так:

import spacy
nlp = spacy.load("model")
doc = nlp("some_text")

Я раньше пользовался одной моделью, чтобы достать одну именованную сущность. Теперь у меня появилось ещё две модели, каждая под свою сущность. Как мне правильно к одному и тому же тексту применить три модели, чтобы все три сущности были размечены в объекте типа doc?
Версия spaCy у меня 2.1.8, потому что 2.2 я не могу использовать из-за одного бага там

проще всего так:
doc1 = nlp1("...")
doc2 = nlp2("...")
all_ents = doc1.ents + doc2.ents

источник

14:01пожаловаться #2

SZ

Sergey Zakharov in Natural Language Processing

то есть если в объекте doc сохранить надо, то можно так?
doc1.ents = doc1.ents + doc2.ents

источник

14:03пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

проще всего так:
doc1 = nlp1("...")
doc2 = nlp2("...")
all_ents = doc1.ents + doc2.ents

если в пайплайне (класс nlp) будет два компонента ner, запустится только один (а если бы запустилось два, второй перетёр бы результаты первого)

источник

14:03пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

Sergey Zakharov

то есть если в объекте doc сохранить надо, то можно так?
doc1.ents = doc1.ents + doc2.ents

можно, только не забудь сделать один раз for l in doc2.get_pipe('ner').labels: doc1.get_pipe('ner').add_label(l)

источник

14:03пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

на всякий случай, поясню, в чём нюанс реализации NER в spacy:
там элементы не могут пересекаться. это значит, что если вы хотите разметить адрес
Москва, ул. Ленинградская, д. 7
и одновременно его компоненты разметить как
LOC (и CARDINAL для "7"), то у вас ничего не получится.

источник

14:05пожаловаться #6

SZ

Sergey Zakharov in Natural Language Processing

на всякий случай, поясню, в чём нюанс реализации NER в spacy:
там элементы не могут пересекаться. это значит, что если вы хотите разметить адрес
Москва, ул. Ленинградская, д. 7
и одновременно его компоненты разметить как
LOC (и CARDINAL для "7"), то у вас ничего не получится.

Ого. А что произойдёт в моём случае, если у меня сущности в doc1 и doc2 пересекутся, при объединении результатов двух моделей?
Если что-то ломается, то как лучше разрешить? Допустим, для меня не страшно, если останется разметка только одной модели. И пока что не очень важно, какая именно модель "выиграет".

источник

14:09пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Sergey Zakharov

Ого. А что произойдёт в моём случае, если у меня сущности в doc1 и doc2 пересекутся, при объединении результатов двух моделей?
Если что-то ломается, то как лучше разрешить? Допустим, для меня не страшно, если останется разметка только одной модели. И пока что не очень важно, какая именно модель "выиграет".

HOW THE DOC.ENTS WORK
When you add spans to the doc.ents, spaCy will automatically resolve them back to the underlying tokens and set the Token.ent_type and Token.ent_iob attributes. By definition, each token can only be part of one entity, so overlapping entity spans are not allowed.
https://spacy.io/usage/processing-pipelines#wrapping-models-libraries , чёрная вставка справа

Language Processing Pipelines

Language Processing Pipelines · spaCy Usage Documentation

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

источник

14:10пожаловаться #8

SZ

Sergey Zakharov in Natural Language Processing

HOW THE DOC.ENTS WORK
When you add spans to the doc.ents, spaCy will automatically resolve them back to the underlying tokens and set the Token.ent_type and Token.ent_iob attributes. By definition, each token can only be part of one entity, so overlapping entity spans are not allowed.
https://spacy.io/usage/processing-pipelines#wrapping-models-libraries , чёрная вставка справа

Language Processing Pipelines

Language Processing Pipelines · spaCy Usage Documentation

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

Спасибо. Не очень понятно, что там подразумевается под "underlying tokens". Я правильно понял, что какая модель первая разметила, от той и останутся сущности в doc? То есть в примере doc1.ents = doc1.ents + doc2.ents при пересечении спэнов останутся сущности из doc1?

источник

14:14пожаловаться #9

OS

Oleg Serikov in Natural Language Processing

я мб чт-то пропустил,но почему бы не запускать конкурентный пайплайны независимо, а потом руками обрабатывать слияние результатов?

источник

14:14пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Sergey Zakharov

Спасибо. Не очень понятно, что там подразумевается под "underlying tokens". Я правильно понял, что какая модель первая разметила, от той и останутся сущности в doc? То есть в примере doc1.ents = doc1.ents + doc2.ents при пересечении спэнов останутся сущности из doc1?

зависит от реализации, но кто-то перепишет сверху теги.

источник

14:14пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

я мб чт-то пропустил,но почему бы не запускать конкурентный пайплайны независимо, а потом руками обрабатывать слияние результатов?

можно так делать, но в основной spacy такой способ делать NER нормально не законтрибутить.

источник

14:15пожаловаться #12

SZ

Sergey Zakharov in Natural Language Processing

зависит от реализации, но кто-то перепишет сверху теги.

"кто-то" - это мои модели или что-то дефолтное от спейси?

источник

14:15пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Sergey Zakharov

"кто-то" - это мои модели или что-то дефолтное от спейси?

при сохранении .ents вызовется какой-то метод spacy, который перезапишет entities у каждого слова, и исходя из этого подредактирует spans. надо смотреть реализацию.

источник

14:17пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

при сохранении .ents вызовется какой-то метод spacy, который перезапишет entities у каждого слова, и исходя из этого подредактирует spans. надо смотреть реализацию.

https://support.prodi.gy/t/what-happens-if-your-annotation-has-overlapping-entity-spans/363/2
вот ещё предложение, как это в один пайплайн можно свести.

Prodigy Support

What happens if your annotation has overlapping entity spans?

When I fix the catastrophic forgetting problem by adding in entities detected by the baseline model do I have to be careful not to have the new entity spans and the old entity spans overlap? For example, say I am trying to build an NER model that finds sports teams. I have the following sentence. The Florida Gators won their away game in California last night. Out of the box, spaCy will annotate “Florida” and “California” as GPEs. What I ultimately want is to keep “California” as a GPE, but l...

источник

14:23пожаловаться #15

SZ

Sergey Zakharov in Natural Language Processing

кто-нибудь пользовался этой либой на своих задачах? как зашла?
https://github.com/chomechome/maru

chomechome/maru

Morphological Analyzer for Russian 💬. Contribute to chomechome/maru development by creating an account on GitHub.

источник

15:00пожаловаться #16

G

George in Natural Language Processing

возможно ли в tf-idf учитывать контекст?

источник

17:21пожаловаться #17

D(

David (ddale) Dale in Natural Language Processing

возможно ли в tf-idf учитывать контекст?

Можно кроме слов включить словные n-граммы, если размеры обучающей выборки позволяют. Не то чтобы полноценный контекст, но как костыль может быть вполне пристойным.

источник

17:21пожаловаться #18

G

George in Natural Language Processing

David (ddale) Dale

Можно кроме слов включить словные n-граммы, если размеры обучающей выборки позволяют. Не то чтобы полноценный контекст, но как костыль может быть вполне пристойным.

если включить еще и n-граммы побуквенно, то не будет лишним?

источник

17:23пожаловаться #19

D(

David (ddale) Dale in Natural Language Processing

если включить еще и n-граммы побуквенно, то не будет лишним?

иногда докидывает. попробовать стоит)

источник

17:24пожаловаться #20