Телеграмм чат группы natural_language

Добрый вечер. Какая метрика лучше всего покажет качество модели классификации текста при большом количестве несбалансированных классов (примерно 150 )?

источник

17:17пожаловаться #7

CT

Cookie Thief in Natural Language Processing

F score

источник

17:19пожаловаться #8

VS

VVv Sergeev in Natural Language Processing

Cookie Thief

F score

f1_macro или f1_micro?

источник

17:33пожаловаться #9

D(

David (ddale) Dale in Natural Language Processing

VVv Sergeev

f1_macro или f1_micro?

Я бы смотрел на f1_macro (чувствительна к мелким классам, но оттого шумная) и на обычную accuracy (более стабильная и хорошо отражает среднее по больнице).

источник

17:35пожаловаться #10

VS

VVv Sergeev in Natural Language Processing

David (ddale) Dale

Я бы смотрел на f1_macro (чувствительна к мелким классам, но оттого шумная) и на обычную accuracy (более стабильная и хорошо отражает среднее по больнице).

Спасибо!

источник

17:37пожаловаться #11

AM

Aleksandr Mester in Natural Language Processing

Привет, не подскажаете по DeepPavlov. Обучаю их берта, и при сборе метрики у них лосс почему-то только для тренировочного датасета собирается, для валидационного нет. Для обучения собирается конфиг и я пытаюсь понять, могу ли я где-то в этом конфиге указать, чтобы лосс тоже собирался?

источник

17:55пожаловаться #12

M

Mary in Natural Language Processing

Привет, а что обучаете? bert-ner, bert-classifier, bert-squad?

источник

17:59пожаловаться #13

AM

Aleksandr Mester in Natural Language Processing

classifier

источник

18:09пожаловаться #14

M

Mary in Natural Language Processing

Одним параметром в конфиге это не сделать. В deeppavlov конфиги устроены так, что при обучении модель видит target-ы и подсчитывает loss, не выходя из tf-графа, а при валидации не видит. А значит, лосс нужно заимлементить отдельно вне модели.

Можно это сделать, заимлементив один класс в директории deeppavlov/metrics (смотри пример с log_loss https://github.com/deepmipt/DeepPavlov/blob/master/deeppavlov/metrics/log_loss.py). Далее в конфиге в секцию "metrics" вставляешь новую метрику по образу и подобию предыдущих (ключи "name" и "inputs")

GitHub

deepmipt/DeepPavlov

An open source library for deep learning end-to-end dialog systems and chatbots. - deepmipt/DeepPavlov

источник

18:25пожаловаться #15

AM

Aleksandr Mester in Natural Language Processing

спасибо!

источник

18:26пожаловаться #16

AK

Alex Klimov in Natural Language Processing

Кто-нибудь покрывал тестами форму в rasa'вском action-сервере? Может есть пример, как ее снаружи аккуратно вызывать репликой?

источник

21:56пожаловаться #17

V

V in Natural Language Processing

продолжаю поиски синтаксического парсера. копнул syntaxnet и udpipe. проблема в том, что они реализуют dependency tree parsing, в то время как я искал constituency parser. по всему гитхабу такой же предобученный парсер ищет какой-то парень, и, похоже, он его не нашёл, похоже что для русского языка такой предобученной модели нет в принципе...

источник

22:24пожаловаться #18

PL

Pavel Lebedev in Natural Language Processing

в русском много возможных перестановок и constituency проблемен в применении (если только делать отдельную логику для «распутывания» непроективных предложений, недавно вроде обсуждали тут, но я не знаю, насколько это эффективно работает), поэтому для русского используют dependency. примеров constituency для русского я даже не знаю.

источник

22:37пожаловаться #19

DK

Denis Kirjanov in Natural Language Processing

V

продолжаю поиски синтаксического парсера. копнул syntaxnet и udpipe. проблема в том, что они реализуют dependency tree parsing, в то время как я искал constituency parser. по всему гитхабу такой же предобученный парсер ищет какой-то парень, и, похоже, он его не нашёл, похоже что для русского языка такой предобученной модели нет в принципе...

Не ищите ))

источник

22:45пожаловаться #20