Size: a a a

Natural Language Processing

2019 December 18

A

Alex in Natural Language Processing
Уважаемые друзья, подскажите, каким инструментом можно приводить словосочетания на русском в более-менее правильный человекочитаемый вид?

Например, дано:
'роза купить гатчина'

Хотелось бы получить:
'купить розу в Гатчине'

заранее благодарен за ответы!
источник

D(

David (ddale) Dale in Natural Language Processing
Alex
Уважаемые друзья, подскажите, каким инструментом можно приводить словосочетания на русском в более-менее правильный человекочитаемый вид?

Например, дано:
'роза купить гатчина'

Хотелось бы получить:
'купить розу в Гатчине'

заранее благодарен за ответы!
Я готового инструмента не знаю.
Что можно попробовать сделать: сделать довольно сложную машиннообученную конструкцию, которая бы из кривого словосочетания делала правильное.
Как сделать:
1. Берёшь много "нормальных" фраз, и "портишь" их некоторыми эвристиками
2. На этих данных обучаешь seq-2-seq нейронку с атеншном и копированиями (типа как для перевода), которая переводила бы с "запросного" языка на "обычный".
Вместо голого seq-2-seq'а можно попробовать замутить что-нибудь с синтаксическим разбором (ведь по сути тут надо правильно восстановить связи между словами и на основе этих связей сгенерировать правильное предложение), но у меня такого опыта нет.
источник

m

mel kaye in Natural Language Processing
можно даже без нейронки по идее, просто подбирать деревья по pos
источник

D(

David (ddale) Dale in Natural Language Processing
mel kaye
можно даже без нейронки по идее, просто подбирать деревья по pos
Просто pos недостаточно, а то может выйти "купить гатчину в розе". Нужна всё-таки какая-то модель, куда вшита статистика употребления слов - но да, необязательно нейронка.
источник

m

mel kaye in Natural Language Processing
David (ddale) Dale
Просто pos недостаточно, а то может выйти "купить гатчину в розе". Нужна всё-таки какая-то модель, куда вшита статистика употребления слов - но да, необязательно нейронка.
я и имел ввиду все возможные деревья по конкретному набору pos
источник

m

mel kaye in Natural Language Processing
а дальше можно померять какое из них наиболее правдоподобное, например по частоте биграм в некотором корпусе
источник

DK

Denis Kirjanov in Natural Language Processing
mel kaye
я и имел ввиду все возможные деревья по конкретному набору pos
неоднозначности многовато будет, семантика нужна
источник

D(

David (ddale) Dale in Natural Language Processing
mel kaye
а дальше можно померять какое из них наиболее правдоподобное, например по частоте биграм в некотором корпусе
Ага, звучит норм
источник

A

Alex in Natural Language Processing
Спасибо, буду пробовать!

По предыдущему вопросу: нашлась библиотека для русского языка termextractor, для текущей задачи ее хватило
источник

NK

Nikolay Karelin in Natural Language Processing
Alex
Спасибо, буду пробовать!

По предыдущему вопросу: нашлась библиотека для русского языка termextractor, для текущей задачи ее хватило
Это вот эта библиотека: https://github.com/igor-shevchenko/rutermextract ???
источник

AZ

Alexandr Zamaraev in Natural Language Processing
Народ, никому не встречался аналог "Regex Coach" - пошаговой отладки регулярок на python-е?
источник

A

Alex in Natural Language Processing
Nikolay Karelin
Это вот эта библиотека: https://github.com/igor-shevchenko/rutermextract ???
Да
источник

NK

Nikolay Karelin in Natural Language Processing
Alexandr Zamaraev
Народ, никому не встречался аналог "Regex Coach" - пошаговой отладки регулярок на python-е?
Такой: https://pythex.org/ ?
источник

m

mel kaye in Natural Language Processing
Alexandr Zamaraev
Народ, никому не встречался аналог "Regex Coach" - пошаговой отладки регулярок на python-е?
regex101
источник

AZ

Alexandr Zamaraev in Natural Language Processing
Не, именно пошаговые. берётся большая регулярка и текст html странички.
И можно смотреть как оно применяется, где откатывается какими частями.
В Regex Coach это великолепно сделано http://www.weitz.de/regex-coach/#step, но диалект несколько свой, да и работает только под виндой..
источник
2019 December 19

D(

David (ddale) Dale in Natural Language Processing
Друзья, а какие готовые модели и датасеты для NLI для русского языка вы использовали? Что посоветуете?
Особенно интересует детекция пар фраз, противоречащих друг другу.
источник

RV

Rinat Valiullov in Natural Language Processing
источник
2019 December 22

AD

Alfredo Diezo in Natural Language Processing
Всем привет!
Кто-нибудь использовал уже предобученные модели на Universal Sentence Encoder с tensorflow или pytorch/text для sentiment analysis?
А то попадаются сплошные гайды с полным пайплайном: от очистки до обучения модели. Нет ли уже натрененных моделей?
источник

CT

Cookie Thief in Natural Language Processing
Alfredo Diezo
Всем привет!
Кто-нибудь использовал уже предобученные модели на Universal Sentence Encoder с tensorflow или pytorch/text для sentiment analysis?
А то попадаются сплошные гайды с полным пайплайном: от очистки до обучения модели. Нет ли уже натрененных моделей?
В тф хабе же претрейн модель
источник

CT

Cookie Thief in Natural Language Processing
Или речь о модели, предобученной для сентимента?
источник