Size: a a a

Natural Language Processing

2020 February 15

ИГ

Иван Гладуш in Natural Language Processing
спасибо буду изучать
источник

SP

Sebastian Pereira in Natural Language Processing
Герман
Писал сам правила на yargy для поиска абсолютных и относительных дат. Кажется, что более менее успешно. Конечно, сходу сразу все возможные варианты трудно придумать, но можно расширять грамматики постепенно, добавляя новое
Мы первоначально пошли по этому пути. Но тут есть простой тест: берёшь решения от других авторов и тестируешь их, есть отличные мультиязычные парсеры, но даже они в какой-то момент четко ломаются на семантической и синтаксической неоднозначности языка. Например, ‘где-то в четверг’, в районе двух недель» - правильно распознает, а вот « где-то так две, если не ошибаюсь, недели назад» - нет никакой парсер правильно не нашёл.
источник

SP

Sebastian Pereira in Natural Language Processing
Просто надо решить для себя, что как и любая задача связанная с языком - это не простая задача, которая рельсами и if statements не решается
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
но ок, да. сначала делаете датасет для детекции
Я честно верю, что где-то есть такой датасет.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Я честно верю, что где-то есть такой датасет.
Глянь NER на когда у https://kelijah.livejournal.com/259705.html , это оно и есть.  С помощью active learning добавляете его варианты, учитесь, получаете ещё больше вариантов.
источник

YB

Yuri Baburov in Natural Language Processing
Можете поставить флаг нужного entity или на всю цепочку слов, или на главное слово. Можно ещё DEP parser использовать для того же, но это сложнее. Это что касается детекции. А определение самого числа -- вам нужен будет рекурсивный парсер (или любой другой обход дерева синт разбора), который будет собирать ответ. Очень муторно делать, много мелочей и разновидностей фраз. Много тестов надо, проверяйте через TDD. По сути, вы пишете компилятор, но человеческого языка.
источник
2020 February 16

SS

Sergey Shulga in Natural Language Processing
А какие есть подходы для решения задачи расстановки знаков препинания? Куда смотреть?
источник

DK

Denis Kirjanov in Natural Language Processing
Sergey Shulga
А какие есть подходы для решения задачи расстановки знаков препинания? Куда смотреть?
берете текст, где они были, удаляете их, запомнив, и решаете задачу восстановления, обучающих корпусов много
источник

SS

Sergey Shulga in Natural Language Processing
Denis Kirjanov
берете текст, где они были, удаляете их, запомнив, и решаете задачу восстановления, обучающих корпусов много
А есть примеры на гитхабе? В качестве baseline? Мне так то не попадалось, хотя задача не сказать, чтобы редкая.
источник

D(

David (ddale) Dale in Natural Language Processing
Sergey Shulga
А есть примеры на гитхабе? В качестве baseline? Мне так то не попадалось, хотя задача не сказать, чтобы редкая.
Можно взять чью-нибудь архитектуру для NER или POS-теггера, только вместо тегов предсказывать для каждого слова, что после него надо вставить: ничего, точку, запятую, вопросительный знак, ...
источник

DL

Dmitry Lyubushkin in Natural Language Processing
источник

NS

Nikolay Shmyrev in Natural Language Processing
Sergey Shulga
А есть примеры на гитхабе? В качестве baseline? Мне так то не попадалось, хотя задача не сказать, чтобы редкая.
https://github.com/episodeyang/deep-auto-punctuation
https://github.com/panda-baba/bert_punct
https://github.com/nkrnrnk/BertPunc
https://github.com/miguelballesteros/LSTM-punctuation
https://github.com/dave-chatmost/pytorch-punctuator
https://github.com/bedapudi6788/deepcorrect
https://github.com/tensorflow/lingvo/tree/master/lingvo/tasks/punctuator
https://github.com/alpoktem/punkProse

https://github.com/ottokart/punctuator2
источник

NS

Nikolay Shmyrev in Natural Language Processing
источник

D

Denis in Natural Language Processing
Какие-то из них есть уже с готовыми модельками, чтоб хуяк-хуяк и в продакшен?
источник

YB

Yuri Baburov in Natural Language Processing
Denis
Какие-то из них есть уже с готовыми модельками, чтоб хуяк-хуяк и в продакшен?
для начала, на каком языке надо?
источник

D

Denis in Natural Language Processing
сорри, английский )
источник

YB

Yuri Baburov in Natural Language Processing
есть готовые модельки для английского местами
источник

YB

Yuri Baburov in Natural Language Processing
а @shulga_sergey может быть не английский нужен
источник

D

Denis in Natural Language Processing
задача интересная, для валидации хотел бы потестить такое решение
источник

D

Denis in Natural Language Processing
(препроцессинга точнее)
источник