Size: a a a

Natural Language Processing

2020 July 08

AK

Anton Kolonin in Natural Language Processing
Yuri Baburov
парсеры на LinkGrammar же очень слабенькие по качеству.
И в чем слабость - приведите сравнительный анализ 🙂
источник

AK

Anton Kolonin in Natural Language Processing
Yuri Baburov
просто надо уже сообществу собраться и сделать правила трансляции из UD в более читаемые подлежащее / сказуемое / итд.
Значит нет. О чем речь тогда? 😊
источник

YB

Yuri Baburov in Natural Language Processing
Anton Kolonin
И в чем слабость - приведите сравнительный анализ 🙂
в двух словах, все парсеры умеют хорошо выделять в однозначных случаях связи существительных, прилагательных и глаголов. А вот неоднозначные случаи разбирать очень сложно.
источник

YB

Yuri Baburov in Natural Language Processing
этих правил для прилагательных ровно 1 штука, для существительных — штук 5, для глаголов/наречий штуки 3.
источник

YB

Yuri Baburov in Natural Language Processing
ну ладно, может я сам через пару недель доберусь, всё равно это делать надо.
тут в группе уже наверное минимум 10 человек себе такое делало.
источник

YB

Yuri Baburov in Natural Language Processing
Anton Kolonin
И в чем слабость - приведите сравнительный анализ 🙂
да, если для английского, то в том же spacy есть алгоритм выделения noun_chunks, там эти правило для существительных записано.
источник

AK

Anton Kolonin in Natural Language Processing
Yuri Baburov
в двух словах, все парсеры умеют хорошо выделять в однозначных случаях связи существительных, прилагательных и глаголов. А вот неоднозначные случаи разбирать очень сложно.
Приведите примеры с использованием http://sz.ru/parser/ иначе звучит голословно.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
в двух словах, все парсеры умеют хорошо выделять в однозначных случаях связи существительных, прилагательных и глаголов. А вот неоднозначные случаи разбирать очень сложно.
не, я плохо объяснил.
UD выделяет связи, очень похожие на связи LinkGrammar.
Например, verb -> (nsubj) -> noun — это обычно связь подлежащее-сказуемое, если noun в именительном падеже.
источник

YB

Yuri Baburov in Natural Language Processing
для начала про качество.
источник

YB

Yuri Baburov in Natural Language Processing
один из примеров неоднозначностей — тарелка с макаронами vs ковырялся (вместе) с макаронами.
источник

YB

Yuri Baburov in Natural Language Processing
но в LinkGrammar вроде бы получше с типологией связей, поэтому я бы делал хороший парсер на UD, а потом его связи конвертировал в формат LinkGrammar, раз уж вам он так нравится.
источник

AK

Anton Kolonin in Natural Language Processing
Нам все равно какую 🙂 но кроме LG внятных вариантов пока никто не предложил. Нам кстати это надо не для парсинга а для продакшна 😎
источник

ДП

Даниил Панченко... in Natural Language Processing
Добрый день, есть датасет более 1000 фото, нужна нейронка для детектирования на ней  велосипедов\самокатов.
Есть бюджет пишите в ЛС сколько займет время такой разработки и стоимость часа, хоть примерно.
ТЗ с подробностями чуть позже будет.
Не нашел правил чата. Надеюсь не забанят
источник

YB

Yuri Baburov in Natural Language Processing
Даниил Панченко
Добрый день, есть датасет более 1000 фото, нужна нейронка для детектирования на ней  велосипедов\самокатов.
Есть бюджет пишите в ЛС сколько займет время такой разработки и стоимость часа, хоть примерно.
ТЗ с подробностями чуть позже будет.
Не нашел правил чата. Надеюсь не забанят
эх, вам бы какую группу по компьютерному зрению найти...
источник

YB

Yuri Baburov in Natural Language Processing
Anton Kolonin
Нам все равно какую 🙂 но кроме LG внятных вариантов пока никто не предложил. Нам кстати это надо не для парсинга а для продакшна 😎
источник

AK

Anton Kolonin in Natural Language Processing
Ссылку на файл грамматики аналогичной https://github.com/opencog/link-grammar/tree/master/data/en - в студию!
источник

YB

Yuri Baburov in Natural Language Processing
можно из датасетов и из данных породить такое, но я не понимаю, как эта грамматика учитывает многозначность слов.
и ещё как она с непроективностью справляется.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
можно из датасетов и из данных породить такое, но я не понимаю, как эта грамматика учитывает многозначность слов.
и ещё как она с непроективностью справляется.
...никак...
источник

VO

Valentin Okhapkin in Natural Language Processing
Yuri Baburov
да, если для английского, то в том же spacy есть алгоритм выделения noun_chunks, там эти правило для существительных записано.
В том же spaCy имеется свойство токена ancestors. Позволяет выявить полную группу связанных слов. https://spacy.io/api/token#ancestors
источник

YB

Yuri Baburov in Natural Language Processing
Valentin Okhapkin
В том же spaCy имеется свойство токена ancestors. Позволяет выявить полную группу связанных слов. https://spacy.io/api/token#ancestors
его недостаточно, он все придаточные предложения и обороты подтянет, нужно ограничиваться по типам связей.
источник