Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2021 December 03

Sergey Sikorskiy in Natural Language Processing

Довольно странно, но в opencorpora часто отсутствуют распространенные слова.
opencorpora импортировали из AOT, но что-то пошло не так …

источник

20:23пожаловаться #1

Ilya Kalinin in Natural Language Processing

А почему не выполнить замены регулярными выражениями?.. критерии вроде довольно простые?..

источник

20:47пожаловаться #2

Alex Bell in Natural Language Processing

Да, к этому и пришел. Но где-то в глубине души надеялся что у кого-то есть скриптик и это уже сделано))) В целом регуляркой давно не пользовался и сейчас надо будет снова восстанавливать...)

источник

20:50пожаловаться #3

Alex Bell in Natural Language Processing

Хотя конечно это наверное будет быстро

источник

20:52пожаловаться #4

Elena gisly in Natural Language Processing

Подстава с дефисами, наверное

источник

20:58пожаловаться #5

Alex Bell in Natural Language Processing

Ну есть нюансы, но пока вижу что дефисы с пробелами с двух сторон, а переносы без пробелов. Даже без учета что есть много мест где не дефисы, а минусы

источник

21:00пожаловаться #6

Natalia in Natural Language Processing

нууу как не убрать при этом слова, где дефис — это дефис

источник

21:00пожаловаться #7

Natalia in Natural Language Processing

но вообще большой процент даже сверка со словарём большого корпуса даст, конечно

источник

21:00пожаловаться #8

Ilya Kalinin in Natural Language Processing

Ну, их во-первых мало на границах строк, во-вторых можно выделить несколько типовых ситуаций (повтор слова, пол и полу) а в третьих если правильно готовили текст они раньше повторялтсь в начале следующей строки. Зависит от того, как распознано, конечно... Но все равно делали замену в Ворде, так что будет не хуже.

источник

21:03пожаловаться #9

Alex Bell in Natural Language Processing

В целом думаю, как можно минимизировать ручную работу. Книг не сильно много - 350 шт по 400 стр в среднем. Кроме того что описали больше ничего не нашел.

источник

21:06пожаловаться #10

Alex Bell in Natural Language Processing

Так что выбор не богат)))

источник

21:06пожаловаться #11

2021 December 04

Yuri Baburov in Natural Language Processing

Похоже на усилительную частицу (как в "страсть какой красивый"), а там точно второго значения с существительным нет? Они же по частотности в корпусе сортированы

источник

01:11пожаловаться #12

Alexander Fedorenko in Natural Language Processing

Посмотрите еще и https://vektonn.io/

UPD Их канал https://t.me/vektonn

vektonn.io

An Open Source Solution for vector search engine

источник

05:55пожаловаться #13

Yuri Baburov in Natural Language Processing

import sys, re
text=open(sys.argv[1], 'rt',encoding='utf-8').read()
text = re.sub('(\w)-\s*\n(\w)', r'\1\2', text, re.S)
open(sys.argv[1], 'wt',encoding='utf-8').write(text)
использовать:
python3 script.py file.txt

источник

10:47пожаловаться #14

Alex Bell in Natural Language Processing

Благодарю Юрий все получилось🙏

источник

10:48пожаловаться #15

2021 December 05

Alex Bell in Natural Language Processing

Добрый вечер, Юрий и конечно же коллеги!
Вот вылез еще один такой момент.:
При чтении, конец линии (строки) заканчивается словом "их", а на следующей линии следует слово "топографических" и вот оно считывается слитно и все великолепие решения по удалению переносов портит. Вот такая беда)

источник

16:31пожаловаться #16

Andrey in Natural Language Processing

text = text.replace('\n', " ")

должно помочь в начале

источник

16:35пожаловаться #17

Alex Bell in Natural Language Processing

Ура!))) Да, это же я '\n' удалил с заменой на пустую строку. Важно что надо это сделать раньше.
Благодарю!!!

источник

16:39пожаловаться #18

Natalia in Natural Language Processing

мой ответ, если что, был с учётом специфики моих файлов, а там иногда получаются просто уже не построчно тексты, а сплошняком (т.е. уже слеплены слова и строки), поэтому эти ложные дефисы-переносы встречаются в середине слова, там тупо по концам строк не пофиксить :)
а так да, если всё попроще, то эти решения должны помогать

источник

16:42пожаловаться #19

Alex Bell in Natural Language Processing

Да, действительно и такие местами встречаются.

источник

17:11пожаловаться #20