Size: a a a

Natural Language Processing

2021 October 23

🐙

🐙 in Natural Language Processing
что, отмечу, никак мною сказанному не противоречит.
источник

🐙

🐙 in Natural Language Processing
подводные камни видятся те же, что упомянуты выше - не все те, кто пишет "как женщина" (если так вообще можно ставить вопрос) будут женщинами и обратное.
источник

AB

Arcady Balandin in Natural Language Processing
Ну это надо доказать или опровергнуть. Ещё до нейронок определяли автора. А пол как бы ещё проще определить. Но смотря какой жанр конечно
источник

N

Natalia in Natural Language Processing
ещё раз напоминание: подводный камень не в том, что нельзя натренировать модель на задачу, а в том, что всё зависит от области применения задачи и её влияния на жизни людей
источник

N

Natalia in Natural Language Processing
если мы берём каких-то там авторов, да ещё если вообще умерших, и пытаемся поиграть в определение пола — это одно. если вы по моим сообщениям начнёте таргетить рекламу про "женские" товары — это уже немного другое (особенно если модель всегда обязана делать строго бинарный выбор, даже без варианта "нельзя определить")
источник

AB

Arcady Balandin in Natural Language Processing
Я легко по шапке научной статьи или рассказа в русскоязычном журнале определю пол автора )
Эта великая женщина, Эрих Мария Ремарк ...
источник

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @CvAByq кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @kasha131, @Mifody, @etkee, @icanfast
При поддержке Золота Бородача
источник

🐙

🐙 in Natural Language Processing
Ребят, как в spacy задать аттрибуты для span'ов после их создания? Эти чертяги позволяют без проблем сделать присваивание, зато потом аттрибут пустой 😠
источник
2021 October 24

AK

Anton Kolonin in Natural Language Processing
Коллеги, для свежего обзора ситуации - есть какие-то свежие и доступные (open source еще лучше) решения и технологии для практического использования решения по извлечению отношений (информации о сущностях и объектах, а также фактов, событий и связей между объектами) из неструктурированных текстовых данных для заданной онтологии предметной области - типа Abbyy Compreno?

Из опенсорсного некоторое время популярностью пользовался RelEx https://pubmed.ncbi.nlm.nih.gov/17142812/ но в последнее время публикаций не вижу.

Есть какие-то свежие статьи или рабочие репозитории/проекты, где это решается с DNN с пригодным для продакшна качеством?

Лидерборд показывает R-BERT в топе top http://nlpprogress.com/english/relationship_extraction.html - Кто-то пробовал его для русского для каких-то предметных областей?

@yuri_baburov
источник

YB

Yuri Baburov in Natural Language Processing
На русском -- тематические дорожки на Dialog: http://www.dialog-21.ru/evaluation/2020/disambiguation/rurebus/
и http://www.dialog-21.ru/evaluation/2020/disambiguation/taxonomia/
и
http://www.dialog-21.ru/evaluation/2016/ner/
На английском -- кроме соревнований по семантике, можно искать статьи про крупные базы, вокруг которых всё строится: Google Knowledge graph , wikidata и common sense database ( конкретнее, были ConceptNet и Babel ) .
А вот скажем по NER конкретно:
Ищем "NER datasets", https://paperswithcode.com/datasets?task=named-entity-recognition-ner&page=1 , оттуда идём на benchmarks и смотрим на работы.
Или по SRL: https://paperswithcode.com/sota/semantic-role-labeling-on-ontonotes .
https://en.m.wikipedia.org/wiki/Commonsense_reasoning перечисляет некоторые проекты в этой области.
Что касается извлечения с хорошим качеством -- целый комбайн надо поднимать (предобработка, разрешение анафоры, синтаксиса и NER, потом только извлекать связи), я помню что allennlp этим занимался именно как комбайном. Neuralcoref тут библиотека, на которую всё ссылались.
И я бы не гнался за топом по F1, потому что даже у рекордсменов F1=0.7 -- это очень плохо для любого практического использования. Это значит, что система загребла с полезными отношениями кучу мусора (precision=0.7 recall=0.7 это "треть берём лишних и треть правильных не находим"). В такой ситуации могут быть полезны более правильные расширяемые концептуальные решения, например, низкие по полноте или по точности, но те, что после доводки на конкретном домене будут хорошо решать конкретную задачу, раз уж в общем виде пока задача нормально не решается.
И вот конкретно секция
https://paperswithcode.com/task/relation-extraction
источник

AB

Arcady Balandin in Natural Language Processing
Может просто сразу
https://paperswithcode.com/task/semantic-parsing ?
источник

VS

Vitalii Smirnov in Natural Language Processing
Добрый день, Юрий! Интересная статья "R-BERT для извлечения отношений". Результат по ВИЕ - 0,44 (F-балл). Наверно, это самый высокий на сегодняшний день (для русского языка). Согласен, что, в целом, необходим комбайн: 1) задача NER, 2) задача RE. Вопрос реализации) Наверно, только практика поможет и перебор вариантов. Было бы интересно обсудить практику реализации
Планируем заняться подобной задачей
источник

A

Alex in Natural Language Processing
Здравствуйте. Использую GPT-2 модель для генерации текста. Можно ли как то оценить на выходе "качество" текста? Т.е. какой то вес (уверенность) посчитать, которое кореллирует с понятием "хороший"  с точки зрения читабельности и смысла текста?
источник

A

Andrey in Natural Language Processing
лайки в соцсетях ;)
источник

A

Alex in Natural Language Processing
Это можно) хотелось бы математическую метрику какую то иметь
источник

d

daniil in Natural Language Processing
BLEU, ROUGE и human evaluation. Ничего лучше пока не придумали)
источник

A

Alex in Natural Language Processing
Это понятно. Вопрос тут в другом. Запустил генерацию на созданной модели 3 раза - получил три разных выхода. Можно ли как то оценить "качество" текста, чтобы показать самый лучший вариант пользователю?
источник

d

daniil in Natural Language Processing
А что вы понимаете под "качеством" текста?
источник

A

Alex in Natural Language Processing
Вопрос хороший. Сгенерирован бред, сгенерирован текст более менее вменяемый. Только непонятно как это оценить математически. Допустим если берём классификатор текста, там есть confidence, по которому можно определять что модель хорошо уверена в выходном результате.
источник