Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2021 December 03

Michael Zilberman in Natural Language Processing

Господа, подскажите, пожалуйста. Как дообучить Natashu, если она неправильно, например, определила фамилию человека, как ORG?

источник

13:19пожаловаться #1

Below Zero in Natural Language Processing

смотря где она ошиблась. Если из-за словаря, добавить в словарь. В худшем случае придется форкать и дописывать грамматику для определения ФИО

источник

13:28пожаловаться #2

Michael Zilberman in Natural Language Processing

Я, честно говоря, только сегодня с этой библиотекой начал работать, может, что-то не так делаю. Но какая-то странная нестабильность. Задача элементарная. В предложении выделить ФИО. Если text = 'директор Скоков Дмитрий Петрович' - то все ок. [DocSpan(start=9, stop=32, type='PER', text='Скоков Дмитрий Петрович', tokens=[...])]
{'Скоков Дмитрий Петрович': {'first': 'Дмитрий', 'last': 'Скоков', 'middle': 'Петрович'}}
Если text = 'директор Скориков Дмитрий Петрович', то уже все по-другому:
[DocSpan(start=9, stop=17, type='ORG', text='Скориков', tokens=[...]), DocSpan(start=18, stop=34, type='PER', text='Дмитрий Петрович', tokens=[...])]
{'Дмитрий Петрович': {'first': 'Дмитрий', 'last': 'Петрович'}}
То есть надо просто фамилию в словарь добавить?

источник

13:42пожаловаться #3

Below Zero in Natural Language Processing

да, попробуйте

источник

13:43пожаловаться #4

Michael Zilberman in Natural Language Processing

Ну я же не знаю заранее, какие фамилии мне встретятся. Вроде простая фамилия.... И почему он отчество сразу начинает определять, как фамилию... Фигня какая-то.

источник

13:45пожаловаться #5

Michael Zilberman in Natural Language Processing

Более того, если меняю просто имя и отчество, с той же фамилией, то все ок:
text = 'директор Скориков Роман Петрович'
[DocSpan(start=9, stop=32, type='PER', text='Скориков Роман Петрович', tokens=[...])]
{'Скориков Роман Петрович': {'first': 'Роман', 'last': 'Скориков', 'middle': 'Петрович'}}

источник

13:50пожаловаться #6

Below Zero in Natural Language Processing

надо смотреть грамматики, так сложно сказать где ошибка

источник

13:55пожаловаться #7

Michael Zilberman in Natural Language Processing

Спасибо, покопаю.

источник

14:02пожаловаться #8

🍧

🍧 in Natural Language Processing

Добрый вечер!
Изучаю nlp, есть задание кластеризации текстов на основе датасета lenta.ru
Какие методики будут точнее описывать кластеры, к чему стоит обратиться в первую очередь?
Заранее благодарен за ответ!

источник

18:19пожаловаться #9

Aleksey Kulnevich in Natural Language Processing

Тематическое моделирование возможно для начала попробовать

источник

18:20пожаловаться #10

Oleg Mosalov in Natural Language Processing

Если нужно именно описывать сами кластеры - абстрактивная суммаризация может подойти.

источник

18:24пожаловаться #11

Alex Bell in Natural Language Processing

Добрый вечер!
Беру тексты из учебников, а там много переносов.
Существует ли простой способ удалить переносы, но слова в которых есть переносы при этом объединить(соединить)? Чтобы не получалось два слова.

источник

19:11пожаловаться #12

🍧

🍧 in Natural Language Processing

Спасибо!!

источник

19:20пожаловаться #13

Natalia in Natural Language Processing

я всё-таки сделаю комментарий: понятно, что хочется автоматизировать, но часто переносы строк видит условно ворд, а не какой-нб notepad++. я как раз много работаю с распознанными книгами или электронными книгами, и иногда проще тупо скинуть в ворд текст, там сделать эту простую автозамену, а потом почищенный текст вернуть обратно в нотпад или куда надо

источник

19:27пожаловаться #14

Natalia in Natural Language Processing

языковые модели хорошо бы, но непонятно, сколько чего будет ловить, и есть всякие подводные камни в виде вставок из других языков и т.п.

источник

19:28пожаловаться #15

Alex Bell in Natural Language Processing

Ну вот здесь и есть проблема, я беру файл.тхт с переносами, а ворд к сожалению эти переносы не понимает. Отсюда и желание каким-то образом автоматизировать с минимальными потерями слов. Но все равно благодарю за совет.

источник

19:30пожаловаться #16

Natalia in Natural Language Processing

ага, если там совсем глухо, то понимаю, мой совет был скорее в первую очередь проверить на всякий случай

источник

19:32пожаловаться #17

Alex Bell in Natural Language Processing

🙏

источник

19:33пожаловаться #18

Anton Kolonin in Natural Language Processing

@yuri_baburov это баг или фича, что pymorphy нифига не страстный и слов таких не знает? 😍

[word.word for word in morph.parse('страсть')[0].lexeme]

['страсть']

источник

20:11пожаловаться #19

Sergey Sikorskiy in Natural Language Processing

pymorphy использует opencorpora, а там “страсть” есть …
Может, конечно, недавно добавили …

источник

20:15пожаловаться #20