Size: a a a

Natural Language Processing

2021 December 03

MZ

Michael Zilberman in Natural Language Processing
Господа, подскажите, пожалуйста. Как дообучить Natashu, если она неправильно, например, определила  фамилию человека, как ORG?
источник

BZ

Below Zero in Natural Language Processing
смотря где она ошиблась. Если из-за словаря, добавить в словарь. В худшем случае придется форкать и дописывать грамматику для определения ФИО
источник

MZ

Michael Zilberman in Natural Language Processing
Я, честно говоря, только сегодня с этой библиотекой начал работать, может, что-то не так делаю. Но какая-то странная нестабильность. Задача элементарная. В предложении выделить ФИО.  Если text = 'директор Скоков Дмитрий Петрович' - то все ок. [DocSpan(start=9, stop=32, type='PER', text='Скоков Дмитрий Петрович', tokens=[...])]
{'Скоков Дмитрий Петрович': {'first': 'Дмитрий', 'last': 'Скоков', 'middle': 'Петрович'}}
Если text = 'директор Скориков Дмитрий Петрович', то уже все по-другому:
[DocSpan(start=9, stop=17, type='ORG', text='Скориков', tokens=[...]), DocSpan(start=18, stop=34, type='PER', text='Дмитрий Петрович', tokens=[...])]
{'Дмитрий Петрович': {'first': 'Дмитрий', 'last': 'Петрович'}}  
То есть надо просто фамилию в словарь добавить?
источник

BZ

Below Zero in Natural Language Processing
да, попробуйте
источник

MZ

Michael Zilberman in Natural Language Processing
Ну я же не знаю заранее, какие фамилии мне встретятся. Вроде простая фамилия.... И почему он отчество сразу начинает определять, как фамилию... Фигня какая-то.
источник

MZ

Michael Zilberman in Natural Language Processing
Более того, если меняю просто имя и отчество, с той же фамилией, то все ок:
text = 'директор Скориков Роман Петрович'
[DocSpan(start=9, stop=32, type='PER', text='Скориков Роман Петрович', tokens=[...])]
{'Скориков Роман Петрович': {'first': 'Роман', 'last': 'Скориков', 'middle': 'Петрович'}}
источник

BZ

Below Zero in Natural Language Processing
надо смотреть грамматики, так сложно сказать где ошибка
источник

MZ

Michael Zilberman in Natural Language Processing
Спасибо, покопаю.
источник

🍧

🍧 in Natural Language Processing
Добрый вечер!
Изучаю nlp, есть задание кластеризации текстов на основе датасета lenta.ru
Какие методики будут точнее описывать кластеры, к чему стоит обратиться в первую очередь?
Заранее благодарен за ответ!
источник

AK

Aleksey Kulnevich in Natural Language Processing
Тематическое моделирование возможно для начала попробовать
источник

OM

Oleg Mosalov in Natural Language Processing
Если нужно именно описывать сами кластеры - абстрактивная суммаризация может подойти.
источник

AB

Alex Bell in Natural Language Processing
Добрый вечер!
Беру тексты из учебников, а там много переносов.
Существует ли простой способ удалить переносы, но слова в которых есть переносы при этом объединить(соединить)? Чтобы не получалось два слова.
источник

🍧

🍧 in Natural Language Processing
Спасибо!!
источник

N

Natalia in Natural Language Processing
я всё-таки сделаю комментарий: понятно, что хочется автоматизировать, но часто переносы строк видит условно ворд, а не какой-нб notepad++. я как раз много работаю с распознанными книгами или электронными книгами, и иногда проще тупо скинуть в ворд текст, там сделать эту простую автозамену, а потом почищенный текст вернуть обратно в нотпад или куда надо
источник

N

Natalia in Natural Language Processing
языковые модели хорошо бы, но непонятно, сколько чего будет ловить, и есть всякие подводные камни в виде вставок из других языков и т.п.
источник

AB

Alex Bell in Natural Language Processing
Ну вот здесь и есть проблема, я беру файл.тхт с переносами, а ворд к сожалению эти переносы не понимает. Отсюда и желание каким-то образом автоматизировать с минимальными потерями слов. Но все равно благодарю за совет.
источник

N

Natalia in Natural Language Processing
ага, если там совсем глухо, то понимаю, мой совет был скорее в первую очередь проверить на всякий случай
источник

AB

Alex Bell in Natural Language Processing
🙏
источник

AK

Anton Kolonin in Natural Language Processing
@yuri_baburov это баг или фича, что pymorphy нифига не страстный и слов таких не знает? 😍

[word.word for word in morph.parse('страсть')[0].lexeme]

['страсть']
источник

SS

Sergey Sikorskiy in Natural Language Processing
pymorphy использует opencorpora, а там “страсть” есть …
Может, конечно, недавно добавили …
источник