Size: a a a

Natural Language Processing

2017 November 10

EI

Eugene Istomin in Natural Language Processing
Ребят, а как такую пепяку в yargi/natasha сделать без regex?
https://github.com/ConTextMe/generalization/blob/master/cognitions/eduorganisation/grammar.py#L58

Мне затычка не нравится с лямбдой и regex

"... re.compile(load_regex(get_dictPath('eduorganisation', 'dict_main.txt')))"
\\ https://github.com/ConTextMe/generalization/blob/master/cognitions/eduorganisation/dictionary.py#L9
источник

АМ

Александр Мамаев in Natural Language Processing
А что с регексспом не так?
источник

EI

Eugene Istomin in Natural Language Processing
Ну мне "custom(lambda s: EDUORGANISATION_DICT_REGEXP.search(s), types=(str))" режет глаза

Потому что смысл сего - дать прилагательное, которое пересекается по маске со словарём.
источник

t2

tonko 22 in Natural Language Processing
скорость > читабельность?
источник

DV

Dima Veselov in Natural Language Processing
ну, можно заменить лямбду на отдельную функцию. должно получится более читаемо:
def is_edu_orgn(word):
   ...
custom(is_edu_orgn)
источник

EI

Eugene Istomin in Natural Language Processing
Dima Veselov
ну, можно заменить лямбду на отдельную функцию. должно получится более читаемо:
def is_edu_orgn(word):
   ...
custom(is_edu_orgn)
давай корректнее вопрос задам:
как сейчас вы сличаете оба факта: "прилагательное" и "в словаре" ?

Другими словами, есть ли возможность работать с корнем слова?
потому что слова "провод" и "проводной"  - это один корень.
Понятно, что pymorphy2 их метит как существительное и прилагательное - но как искать "однокоренность"?  ))
источник

АМ

Александр Мамаев in Natural Language Processing
так
источник

АМ

Александр Мамаев in Natural Language Processing
а как связан словарь с однокернными словами?
источник

DV

Dima Veselov in Natural Language Processing
я не уверен, что в pymorphy2 есть такая фича. в opencorpora нет связи между провод и проводной. можно найти "однокоренные" слова в пределах одной леммы. для проводная, проводное и остальных (http://opencorpora.org/dict.php?act=edit&id=278027) - это проводной.
источник

АМ

Александр Мамаев in Natural Language Processing
можно свой классификатор замутить
источник

EI

Eugene Istomin in Natural Language Processing
На примере https://github.com/ConTextMe/generalization/blob/master/cognitions/eduorganisation/dict_main.txt

1) есть слово "институты"
я его могу получить через R1_SIMPLE (https://github.com/ConTextMe/generalization/blob/master/cognitions/eduorganisation/grammar.py#L73)
всё ок, нет сложностей

2) есть прилагательное "институтские"
оно и прилагательное (норм. форма - "институтский"), и часть маркера по словарю EDUORGANISATION_DICT
DSL сейчас не позволяет найти слова "однокоренные", "одноморфемные" - и я как затычку сделал из словаря regex-объект, которым матчу вхождение

Плохой вариант, так как на каждое прилагательное будет вызываться regex-матчер...
источник

АМ

Александр Мамаев in Natural Language Processing
просто word2vec еще проверять
источник

EI

Eugene Istomin in Natural Language Processing
Александр Мамаев
просто word2vec еще проверять
Ага, про это и спрашивал - есть ли у кого что-то похожее и рабочее
источник

АМ

Александр Мамаев in Natural Language Processing
А в чем проблема просто обученый w2v взять и поставить условную границу по растоянию?
источник

t2

tonko 22 in Natural Language Processing
контекст же еще нужен
источник

t2

tonko 22 in Natural Language Processing
в прочем кто мешает прикрутить и протюнить lstmку
источник

EI

Eugene Istomin in Natural Language Processing
tonko 22
контекст же еще нужен
да, это и ответ
источник

EI

Eugene Istomin in Natural Language Processing
Dima Veselov
я не уверен, что в pymorphy2 есть такая фича. в opencorpora нет связи между провод и проводной. можно найти "однокоренные" слова в пределах одной леммы. для проводная, проводное и остальных (http://opencorpora.org/dict.php?act=edit&id=278027) - это проводной.
»  в opencorpora нет связи между провод и проводной.
спасибо, думал, что есть - но не нашел
источник
2017 November 11

Z

Zuzuzu in Natural Language Processing
Добрый вечер, можете мне помочь? Тестирую поиск имен и фамилий с помощью библиотеки natasha на новостях из РБК, проблема в следующем: не распознает некоторые фамилии. Я решил посмотреть есть ли они в словаре data\last.txt, там я их нашел, тогда я не совсем почему они не распознаются в тексте или эти словари не подключены?
источник

TM

Timophey Molchanov in Natural Language Processing
А где-то есть датасет новостей РБК открытый? Или вы сами его собрали? (сорри за офтоп)
источник