Телеграмм чат группы natural_language

Вообще, грамарли эту ж проблему как-то решили и для многих языков. Надо Марьяну Романишин сюда звать и просить поделиться знаниями, которые не секретны. Но за их успехом стоит длинная работа по накоплению словарей и разметке корпусов

источник

19:31пожаловаться #4

Sergey Sikorskiy in Natural Language Processing

Марьяна Романишин не нагугливается почему-то …

источник

19:33пожаловаться #5

VVS VVS in Natural Language Processing

если делать на колеках, я бы делал так: часть пайморфивским склонением, часть поиском "клише" самих кострукций фраз по корпусам и определением того, что сабжект "родственен" подстановочному значению - то есть операция над сабджектом не нарушает кострукции.

источник

19:33пожаловаться #6

VVS VVS in Natural Language Processing

https://prjctr.online/data-science-natural-language-processing.html

prjctr.online

DATA SCIENCE. NATURAL LANGUAGE PROCESSING

Комп’ютерна лінгвістика та опрацювання текстів природною мовою.

источник

19:35пожаловаться #7

Sergey Sikorskiy in Natural Language Processing

Спасибо! Сначала в не правильном гугле искал …

источник

19:36пожаловаться #8

VVS VVS in Natural Language Processing

вообще эта тематика больная во всем кирилличом прострастве, так что оно будет или хромать, и лучше править через провайдера а-ля граммарли, платно, или просто принять тот уровень ошибок, который выйдет из алгоритма. Иначе, ка ккто-то писал выше, это или на научный подвиг надо идти, или должен сервис окупаться и окупать opex на использование 3х сервисов для шлифовки

источник

19:38пожаловаться #9

VVS VVS in Natural Language Processing

если эта задача совсем совсем коммерческая - то лчший симбиоз - свой скрипт + 10 редакторов в штате + провайдер авто коррекции. Если же научная - то тогда нужно к стороникам созданния онтологии Вселенной примыыкать и на их онтологических базах порождать "нечто"

источник

19:42пожаловаться #10

VVS VVS in Natural Language Processing

по факту это будет подвиг типа статистически родить модель русского языка на онтологии Вселенной 🙂

источник

19:44пожаловаться #11

VVS VVS in Natural Language Processing

ведь всего лишь надо набрать достаточное кол-во corpus concordance collocation... и рассмотреть уникальные случае с малой статистикой... разрешить противоречия... и задача решена

источник

19:46пожаловаться #12

VVS VVS in Natural Language Processing

даже размечать не надо, только копить и обобщать в правила

источник

19:46пожаловаться #13

VVS VVS in Natural Language Processing

в принципе, все это "ощущают" как подход... но, долго, дорого и ... возвращаемся в исходное состояние вопроса

источник

19:48пожаловаться #14

Sergey Sikorskiy in Natural Language Processing

Спасибо за помощь! Будем искать … (C)

источник

19:55пожаловаться #15

Edward in Natural Language Processing

Добрый вечер!)
А подскажите есть ли аналог natasha под c# ? Или ничего путного нет и проще будет сделать микросервис?

И есть ли где нибудь хороший гайд про тонкую настройку наташи - для извлвечения:
-дат (месяц, год, возраст)
-Фамилия имя отчество, полное либо сокращенное
-Отношений типа - мать отец и жена.
А то как то все кусками ))

источник

22:45пожаловаться #16

Edward in Natural Language Processing

+ еще (менее важно) номеров всяческих документов типа ИНН и тому подобного

источник

22:45пожаловаться #17

Егорка in Natural Language Processing

Для данных задач, включая инн и даты, есть pullenti на c#
Для сущностей вида: дата, номер и т.д. в Наташе есть yargy парсер. В нём можно написать правила для поиска того, что вы привели.
Гайд с рецептами для yargy-парсера есть на его странице в репозитории.

источник

22:50пожаловаться #18

Edward in Natural Language Processing

А pullenti умеет ФИО тоже вычленять?

источник

22:52пожаловаться #19

Егорка in Natural Language Processing

Да, но стоит учитывать, что этот инструмент не использует машинное обучение. Это может быть даже плюсом, если предметная область вашего датасета далека от датасетов, используемых при обучении моделей МО.

источник

22:55пожаловаться #20