Size: a a a

Natural Language Processing

2019 October 13

w

wisam in Natural Language Processing
Thanks
источник

SZ

Sergey Zakharov in Natural Language Processing
Вопрос про spaCy, не могу по доке разобраться. Если у меня уже есть объект Doc, который я сделал из кастомного списка токенов как в доке написано:
nlp = spacy.load("my_ner_model")
doc = Doc(nlp.vocab, words=["Hello", ",", "world", "!"])

То как мне этот документ прогнать через мою модель теперь, чтобы там именованные сущности разметились? Я знаю, что можно сделать это с сырым тексом как nlp("Hello, world!"), а как разметить готовый объект Doc - не могу понять. Причём не вариант объединить список слов сначала в текст, потому что spaCy начинает многие токены на 2 разных токена делить, а мне нужно сохранить свои токены.
источник

A

Alexey in Natural Language Processing
Скорее всего, надо этот doc-объект в ner-классификатор передать
источник

VS

VVv Sergeev in Natural Language Processing
Добрый вечер! Хотелось бы узнать - при классификации текста с большим числом классов (~150) - значение лосс-0.37, а значение accuracy - 0.907. Всё очень плохо?
источник

A

Aragaer in Natural Language Processing
лосс сам по себе ни о чем не говорит
источник

A

Aragaer in Natural Language Processing
accuracy выглядит неплохим
источник

VS

VVv Sergeev in Natural Language Processing
Aragaer
accuracy выглядит неплохим
источник

VS

VVv Sergeev in Natural Language Processing
А если графики такие?
источник

A

Aragaer in Natural Language Processing
я бы сказал, что можно продолжать тренировать - оно еще не вышло на плато
источник

VS

VVv Sergeev in Natural Language Processing
Aragaer
я бы сказал, что можно продолжать тренировать - оно еще не вышло на плато
Спасибо!
источник

VS

VVv Sergeev in Natural Language Processing
То есть число эпох можно увеличить, понял
источник

A

Aragaer in Natural Language Processing
просто продолжить обучение
источник

A1

Art 141 in Natural Language Processing
Есть у меня следующая задача, обработать все слова текста (допустим анализируем члены предложения и интонацию конкретного слова) и вывести пользователю сохранив исходное форматирование (знаки препинания, абзацы и тд). Есть примеры как такие данных лучше всего хранить?
источник
2019 October 14

В

Владислав in Natural Language Processing
VVv Sergeev
Добрый вечер! Хотелось бы узнать - при классификации текста с большим числом классов (~150) - значение лосс-0.37, а значение accuracy - 0.907. Всё очень плохо?
Если у тебя 99% объектов будет принадлежать одному классу, а классификатор всегда указывать только на этот класс, то acc будет 99%. Пользуйся f1 мерой
источник

YB

Yuri Baburov in Natural Language Processing
Art 141
Есть у меня следующая задача, обработать все слова текста (допустим анализируем члены предложения и интонацию конкретного слова) и вывести пользователю сохранив исходное форматирование (знаки препинания, абзацы и тд). Есть примеры как такие данных лучше всего хранить?
Взять spacy или просто его внутреннюю модель (список спанов со словами)
источник

A1

Art 141 in Natural Language Processing
Yuri Baburov
Взять spacy или просто его внутреннюю модель (список спанов со словами)
Ок, посмотрю как у них устроено.
источник

YB

Yuri Baburov in Natural Language Processing
Т.е. в python метод re.search возвращает позицию начала, конца, и слово (если паттерн \w+ для примера берём), и по этим позициям можно, сохранив использованный текст, восстановить форматирование
источник

A1

Art 141 in Natural Language Processing
Yuri Baburov
Т.е. в python метод re.search возвращает позицию начала, конца, и слово (если паттерн \w+ для примера берём), и по этим позициям можно, сохранив использованный текст, восстановить форматирование
И для каждого слова запоминать порядковые номера символов начала и окончания?
источник

YB

Yuri Baburov in Natural Language Processing
Ага
источник

A1

Art 141 in Natural Language Processing
Думал про такой вариант, но на выводе тому же фронту не очень удобно будет с этим работать.
источник