Телеграмм чат группы natural_language

Sergey Zakharov in Natural Language Processing

12:35пожаловаться #1

SZ

Вопрос про spaCy, не могу по доке разобраться. Если у меня уже есть объект Doc, который я сделал из кастомного списка токенов как в доке написано:

nlp = spacy.load("my_ner_model")
doc = Doc(nlp.vocab, words=["Hello", ",", "world", "!"])

То как мне этот документ прогнать через мою модель теперь, чтобы там именованные сущности разметились? Я знаю, что можно сделать это с сырым тексом как nlp("Hello, world!"), а как разметить готовый объект Doc - не могу понять. Причём не вариант объединить список слов сначала в текст, потому что spaCy начинает многие токены на 2 разных токена делить, а мне нужно сохранить свои токены.

15:17пожаловаться #2

A

Alexey in Natural Language Processing

Скорее всего, надо этот doc-объект в ner-классификатор передать

16:17пожаловаться #3

VS

Добрый вечер! Хотелось бы узнать - при классификации текста с большим числом классов (~150) - значение лосс-0.37, а значение accuracy - 0.907. Всё очень плохо?

19:20пожаловаться #4

A

лосс сам по себе ни о чем не говорит

19:21пожаловаться #5

A

accuracy выглядит неплохим

19:21пожаловаться #6

VS

Aragaer

accuracy выглядит неплохим

19:28пожаловаться #7

VS

А если графики такие?

19:28пожаловаться #8

A

я бы сказал, что можно продолжать тренировать - оно еще не вышло на плато

19:39пожаловаться #9

VS

Aragaer

я бы сказал, что можно продолжать тренировать - оно еще не вышло на плато

Спасибо!

20:06пожаловаться #10

VS

То есть число эпох можно увеличить, понял

20:06пожаловаться #11

A

просто продолжить обучение

20:07пожаловаться #12

A1

Есть у меня следующая задача, обработать все слова текста (допустим анализируем члены предложения и интонацию конкретного слова) и вывести пользователю сохранив исходное форматирование (знаки препинания, абзацы и тд). Есть примеры как такие данных лучше всего хранить?

Владислав in Natural Language Processing

23:31пожаловаться #13

2019 October 14

В

VVv Sergeev

Добрый вечер! Хотелось бы узнать - при классификации текста с большим числом классов (~150) - значение лосс-0.37, а значение accuracy - 0.907. Всё очень плохо?

Если у тебя 99% объектов будет принадлежать одному классу, а классификатор всегда указывать только на этот класс, то acc будет 99%. Пользуйся f1 мерой

Yuri Baburov in Natural Language Processing

07:31пожаловаться #14

YB

Art 141

Есть у меня следующая задача, обработать все слова текста (допустим анализируем члены предложения и интонацию конкретного слова) и вывести пользователю сохранив исходное форматирование (знаки препинания, абзацы и тд). Есть примеры как такие данных лучше всего хранить?

Взять spacy или просто его внутреннюю модель (список спанов со словами)

08:49пожаловаться #15

A1

Yuri Baburov

Взять spacy или просто его внутреннюю модель (список спанов со словами)

Ок, посмотрю как у них устроено.

Yuri Baburov in Natural Language Processing

08:59пожаловаться #16

YB

Т.е. в python метод re.search возвращает позицию начала, конца, и слово (если паттерн \w+ для примера берём), и по этим позициям можно, сохранив использованный текст, восстановить форматирование

09:04пожаловаться #17

A1

Yuri Baburov

Т.е. в python метод re.search возвращает позицию начала, конца, и слово (если паттерн \w+ для примера берём), и по этим позициям можно, сохранив использованный текст, восстановить форматирование

И для каждого слова запоминать порядковые номера символов начала и окончания?

Yuri Baburov in Natural Language Processing

09:08пожаловаться #18

YB

Ага

09:08пожаловаться #19

A1

Думал про такой вариант, но на выводе тому же фронту не очень удобно будет с этим работать.