Size: a a a

Natural Language Processing

2021 April 15

SS

Sergey Sikorskiy in Natural Language Processing
Спасибо! Это была одна из первых статей, что нагуглилась.
источник

VV

VVS VVS in Natural Language Processing
если решать такое, то адо забыть на время про "разметить-обучить", а пока плохенько, но набрать эвристических правил
источник

VV

VVS VVS in Natural Language Processing
ну да, это крутой автор, всегдад были одни из передовых работ
источник

VV

VVS VVS in Natural Language Processing
Вообще, грамарли эту ж проблему как-то решили и для многих языков. Надо Марьяну Романишин сюда звать и просить поделиться знаниями, которые не секретны. Но за их успехом стоит длинная работа по накоплению словарей и разметке корпусов
источник

SS

Sergey Sikorskiy in Natural Language Processing
Марьяна Романишин не нагугливается почему-то …
источник

VV

VVS VVS in Natural Language Processing
если делать на колеках, я бы делал так: часть пайморфивским склонением, часть поиском "клише" самих кострукций фраз по корпусам и определением того, что сабжект "родственен" подстановочному значению - то есть операция над сабджектом не нарушает кострукции.
источник

VV

VVS VVS in Natural Language Processing
источник

SS

Sergey Sikorskiy in Natural Language Processing
Спасибо! Сначала в не правильном гугле искал …
источник

VV

VVS VVS in Natural Language Processing
вообще эта тематика больная во всем кирилличом прострастве, так что оно будет или хромать, и лучше править через провайдера а-ля граммарли, платно, или просто принять тот уровень ошибок, который выйдет из алгоритма. Иначе, ка ккто-то писал выше, это или на научный подвиг надо идти, или должен сервис окупаться и окупать opex на использование 3х сервисов для шлифовки
источник

VV

VVS VVS in Natural Language Processing
если эта задача совсем совсем коммерческая - то лчший симбиоз - свой скрипт + 10 редакторов  в штате + провайдер авто коррекции. Если же научная - то тогда нужно  к стороникам созданния онтологии Вселенной примыыкать и на их онтологических базах порождать "нечто"
источник

VV

VVS VVS in Natural Language Processing
по факту это будет подвиг типа статистически родить модель русского языка на онтологии Вселенной 🙂
источник

VV

VVS VVS in Natural Language Processing
ведь всего лишь надо набрать достаточное кол-во corpus concordance collocation... и рассмотреть уникальные случае с малой статистикой... разрешить противоречия... и задача решена
источник

VV

VVS VVS in Natural Language Processing
даже размечать не надо, только копить и обобщать в правила
источник

VV

VVS VVS in Natural Language Processing
в принципе, все это "ощущают" как подход... но, долго, дорого и ... возвращаемся в исходное состояние вопроса
источник

SS

Sergey Sikorskiy in Natural Language Processing
Спасибо за помощь! Будем искать … (C)
источник

E

Edward in Natural Language Processing
Добрый вечер!)
А подскажите есть ли аналог natasha под c# ? Или ничего путного нет и проще будет сделать микросервис?

И есть ли где нибудь хороший гайд про тонкую настройку наташи - для извлвечения:
-дат (месяц, год, возраст)
-Фамилия имя отчество, полное либо сокращенное
-Отношений типа - мать отец и жена.
А то как то все кусками ))
источник

E

Edward in Natural Language Processing
+ еще (менее важно) номеров всяческих документов типа ИНН и тому подобного
источник

Е

Егорка in Natural Language Processing
Для данных задач, включая инн и даты, есть pullenti на c#
Для сущностей вида: дата, номер и т.д. в Наташе есть yargy парсер. В нём можно написать правила для поиска того, что вы привели.
Гайд с рецептами для yargy-парсера есть на его странице в репозитории.
источник

E

Edward in Natural Language Processing
А pullenti  умеет ФИО тоже вычленять?
источник

Е

Егорка in Natural Language Processing
Да, но стоит учитывать, что этот инструмент не использует машинное обучение. Это может быть даже плюсом, если предметная область вашего датасета далека от датасетов, используемых при обучении моделей МО.
источник