Size: a a a

Natural Language Processing

2017 July 16

СС

Сергей Соложенцев in Natural Language Processing
То есть наташа работает по правилам?
источник

СС

Сергей Соложенцев in Natural Language Processing
Нужно написать грамматику и тогда должно работать?
источник

АМ

Александр Мамаев in Natural Language Processing
Да,  но заготовки правил есть, так что ничего сложного нет.
источник

СС

Сергей Соложенцев in Natural Language Processing
Проблема в том, что мне нужно находить сущности, которые валидны только в контексте. В частности мне нужно по тексту договора определить кто является заказчиком, а кто исполнителем. И то и другое имена (или организации). Но только по контексту можно понять, что кто из них кто
источник

СС

Сергей Соложенцев in Natural Language Processing
Тут наверное машинное обучение лучше бы зашло?
источник

АМ

Александр Мамаев in Natural Language Processing
Наташа занимается только NER, т.е идентификация имен. А вот по контексту надо применять методы машинки.
источник

DV

Dima Veselov in Natural Language Processing
Ну, не только идентификацией имен :)
Насколько я знаю, такая задача называется relation extraction и тут есть много подходов, в т.ч. онтологии и синтаксический разбор - которые требуют очень больших затрат по времени (для того, чтобы описать как минимум несколько видов ситаксических конструкций) и я не уверен, что в сейчас это можно описать правилами наташи.
Если хочется чего-то готового, посмотрите на MITIE (https://github.com/mit-nlp/MITIE), у них даже в примерах есть похожие штуки: https://github.com/mit-nlp/MITIE/blob/master/examples/python/train_relation_extraction.py
источник

СС

Сергей Соложенцев in Natural Language Processing
Спасибо за инфу)
источник

DV

Dima Veselov in Natural Language Processing
Хотя, если вы разбираете договора (которые должны быть написаны в своеобразном стиле, см. контролируемый естественный язык) - простые случаи, скорее всего, можно будет извлекать с помощью грамматик (с хорошей точностью)
источник

DV

Dima Veselov in Natural Language Processing
Александр @alexkuk приводил тут пример сложных грамматик для реестра запрещенных материалов:
источник

DV

Dima Veselov in Natural Language Processing
источник

AC

Alexey Chaley in Natural Language Processing
А как с русским?
источник

AC

Alexey Chaley in Natural Language Processing
Ну, не только идентификацией имен :)
Насколько я знаю, такая задача называется relation extraction и тут есть много подходов, в т.ч. онтологии и синтаксический разбор - которые требуют очень больших затрат по времени (для того, чтобы описать как минимум несколько видов ситаксических конструкций) и я не уверен, что в сейчас это можно описать правилами наташи.
Если хочется чего-то готового, посмотрите на MITIE (https://github.com/mit-nlp/MITIE), у них даже в примерах есть похожие штуки: https://github.com/mit-nlp/MITIE/blob/master/examples/python/train_relation_extraction.py
источник

DV

Dima Veselov in Natural Language Processing
Все, что я пробовал - это их unsupervised токенизатор и получилось не очень.
источник

DV

Dima Veselov in Natural Language Processing
В общем, как обучите, так и будет :)
источник
2017 July 31

AZ

Artem Z in Natural Language Processing
всем привет, есть проблема с добавлением словаря. Может кто подскажет, как быть и что делать :( https://github.com/bureaucratic-labs/natasha/issues/20
источник

DV

Dima Veselov in Natural Language Processing
если я правильно понял, всё что нужно сделать - это поставить dawg в ваш virtualenv.
источник

AZ

Artem Z in Natural Language Processing
установлен
источник

AZ

Artem Z in Natural Language Processing
выполнил уже `import dawg

d = dawg.DAWG(persons)
d.save('prsn.dawg')`
источник

AZ

Artem Z in Natural Language Processing
persosns - словарь
источник