Size: a a a

Natural Language Processing

2018 March 26

M

Marat in Natural Language Processing
Serge ★
Раз пошла такая пьянка. Кто может дать намек на то, как работать с аббревиатурами итп?
У нас есть куча текстов по типа "В начале К. выдаёт себя за землемера и с удивлением узнаёт, что он и есть – землемер. От Замка К. получает двух помощников – Артура и Иеремию. В романе эти герои отчасти напоминают собой ангелов (хранителя и «разрушителя»), отчасти – детей. Непосредственным начальником К. становится Кламм – важный чиновник из Замка."
При этом "К." отсеивается как предлог
Я бы регэкспом заменил на условную фамилию
источник

IS

Ivan Sheynin in Natural Language Processing
Хм, может попробовать через word2vec поискать похожести на конкретные аббревиатуры. По идее может сработать для их расшифровки.
источник

IS

Ivan Sheynin in Natural Language Processing
Если, конечно, расшифровка используется хоть сколько-то в тех же контекстах.
источник

DV

Dima Veselov in Natural Language Processing
Serge ★
Раз пошла такая пьянка. Кто может дать намек на то, как работать с аббревиатурами итп?
У нас есть куча текстов по типа "В начале К. выдаёт себя за землемера и с удивлением узнаёт, что он и есть – землемер. От Замка К. получает двух помощников – Артура и Иеремию. В романе эти герои отчасти напоминают собой ангелов (хранителя и «разрушителя»), отчасти – детей. Непосредственным начальником К. становится Кламм – важный чиновник из Замка."
При этом "К." отсеивается как предлог
pymorphy2 должен добавлять грамемму Init или Abbr к таким словам, если я правильно помню
должно быть в одной из возвращаемых форм.
источник

S★

Serge ★ in Natural Language Processing
Мммм! @dveselov Сенкс. Надо будет посмотреть.
источник

DV

Dima Veselov in Natural Language Processing
Dima Veselov
pymorphy2 должен добавлять грамемму Init или Abbr к таким словам, если я правильно помню
должно быть в одной из возвращаемых форм.
это даже не pymorphy2 делает, это в opencorpora такая разметка http://opencorpora.org/dict.php?act=edit&id=389619
источник
2018 March 28

GS

George Shushuev in Natural Language Processing
Serge ★
На хабре было про замену на pymorphy2
@authf А можно ссылку, пожалуйста
источник

S★

Serge ★ in Natural Language Processing
George Shushuev
@authf А можно ссылку, пожалуйста
Хммм. Ищу-ищу и не могу найти. Странно. Какая-то ложная память. Пну ребят, которые это делали, когда увижу.
источник

GS

George Shushuev in Natural Language Processing
Serge ★
Хммм. Ищу-ищу и не могу найти. Странно. Какая-то ложная память. Пну ребят, которые это делали, когда увижу.
Спасибо, буду ждать 🙂
источник

S★

Serge ★ in Natural Language Processing
George Shushuev
Спасибо, буду ждать 🙂
Угу, надеюсь не срочно? Я не уверен, что сегодня смогу ответить
источник

GS

George Shushuev in Natural Language Processing
Serge ★
Угу, надеюсь не срочно? Я не уверен, что сегодня смогу ответить
Да, не срочно, конечно. 😉 Спасибо что откликнулись.
источник

I

Ilya in Natural Language Processing
Приветствую!
источник

I

Ilya in Natural Language Processing
Есть ли инструменты для тестирования и оценки грамматик?
Что бы можно было удобно добавлять различные кейсы: добавить текст, добавить сущности из этого текста. Далее запустить парсер, получить результат и оценить его на основе созданных кейсов.
Либо может в этой теме для тестирования/оценки применяются другие методики?
источник

D

Denis in Natural Language Processing
Тоже интересно что примеряется в оценке текстов (как гораздо более общей задачи).
Пока что для себя я лишь открыл https://languagetool.org - это не прямо решение, но из него хотя бы можно получить какую-то оценку "правильности" (заметьте, в кавычках) текста
источник

GS

George Shushuev in Natural Language Processing
Пара вопросов:
Чем лучше определять пол по ФИО?
Чем лучше определять - слово (набор слов через пробел для сложносочинённых именований) это Ф или И или О? Нужно для сортировки ФИО в случае когда оно задано одной строкой.
источник

D

Denis in Natural Language Processing
> Чем лучше определять пол по ФИО?
на хабре была статья об обучении простой модели, которая определяла пол по окончаниям ФИО ( вот она: https://habrahabr.ru/post/274499/ ) - но там на сложных данных всё ломалось.

к слову, где-то видел что такое делали на fastText ( https://fasttext.cc/ ) (может даже в документации у них читал), это фейсбучная библиотека для ML, очень годная
источник

D

Denis in Natural Language Processing
вот ишью на гитхабе об определении пола: https://github.com/facebookresearch/fastText/issues/336
источник

D

Denis in Natural Language Processing
Кто-нибудь сталкивался с задачей автоматического реферирования (automatic summarization)?
Есть ли готовые решения, которые не просто берут целиком подряд идущие предложения?
источник

PP

Pavel Philippovich in Natural Language Processing
в salesforce вроде был
источник

D

Denis in Natural Language Processing
источник