Size: a a a

Natural Language Processing

2021 April 15

VM

Victor Maslov in Natural Language Processing
есть конкретные результаты и конкретная статистика ошибок
источник

N

Natalia in Natural Language Processing
а какая разница, какие результаты? проверялось, что выборки сбалансированы по числу переходных/непереходных примеров? а то просто от балды можно сказать, что тут хуже, потому что англ, а не потому что примеры заковыристей
источник

VM

Victor Maslov in Natural Language Processing
перепроверил случаи про падеж
походу mystem действительно не делает предположений, какой падеж более вероятен, а просто перечисляет все возможные в каком-то своем захардкоженном порядке (от дательного до именительного), так что м.б. можно будет исправить эту проблему вычеркиванием из обучения неоднозначных случаев
источник

VM

Victor Maslov in Natural Language Processing
не нужно балансировать выборки по числу переходных и непереходных
итоговая программа есть генератор, который штопает заголовки один за другим, и из них взяты подряд N штук, из которых 50% являются определенной ошибкой, которую значит если исправить, то кол-во ошибок уменьшится в два раза
источник

DS

Daria Samsonova in Natural Language Processing
переходность - это частный случай, там еще миллион и одно слабое место может быть, о которых мы не подумали (как те же наречия, о которых уже выше говорилось)
источник

VM

Victor Maslov in Natural Language Processing
а для обучения по англ я брал тоже заголовки, только не из Ленты, а с форума
источник

VM

Victor Maslov in Natural Language Processing
речь о миллионе слабых мест не идет
источник

VM

Victor Maslov in Natural Language Processing
есть конкретика
источник

DS

Daria Samsonova in Natural Language Processing
тогда я не понимаю в чем вопрос, про переходность вроде уже все рассказали
источник

N

Natalia in Natural Language Processing
да, не нужно

если вы готовы не предъявлять языку претензии
источник

VM

Victor Maslov in Natural Language Processing
в том, есть ли какая-то тулза, которая бы давала больше инфы, чем, например, приведенные выше tree-tagger и textblob, потому что на примере первая выдает мало, а вторая ошиблась, а mystem выдает много и правильно
источник

DS

Daria Samsonova in Natural Language Processing
объяснили же уже что в самом английском языке не существует "больше инфы" о морфологии
источник

DS

Daria Samsonova in Natural Language Processing
нет там падежей и родов
источник

DS

Daria Samsonova in Natural Language Processing
если хотите семантические и синтаксические роли, то нужны отдельные парсеры под это, но с приличным качеством для семантики точно нет
источник

VM

Victor Maslov in Natural Language Processing
я не спорю
источник

VM

Victor Maslov in Natural Language Processing
кто не понял вопрос, хотел объяснений, и я объяснил, привел примеры
что такое несуразица, какой рез-тат и т.п.
источник

VM

Victor Maslov in Natural Language Processing
если есть тулзы чтоб определять "семантические и синтаксические роли", которыми бы я мог воспользоваться вместо пос-теггеров, будет замечательно
источник

MK

Max Kuznetsov in Natural Language Processing
Ладно, а есть ли библиотеки чтобы просклонять 'федеральный конституционный закон'? т.е. просклонять "закон", чтобы остальные прилагательные были согласованными?
источник

VV

VVS VVS in Natural Language Processing
ну всегда  можно платно гнать через Грамарли 🙂 если проект профитабл. И править несуразицы
источник

VV

VVS VVS in Natural Language Processing
а если "поиграться" - то тогда нужно артиклз по ИИ-конфам 10летней давности поднять - там все описано, про 27 семантических ролей русккого языка и эксперименты. Нахрапом из г-на и песка и глины можо собрать только участкового, согласно поговорке. Это правда
источник