Size: a a a

Natural Language Processing

2021 December 03

SS

Sergey Sikorskiy in Natural Language Processing
Довольно странно, но в opencorpora часто отсутствуют распространенные слова.
opencorpora импортировали из AOT, но что-то пошло не так …
источник

IK

Ilya Kalinin in Natural Language Processing
А почему не выполнить замены регулярными выражениями?.. критерии вроде довольно простые?..
источник

AB

Alex Bell in Natural Language Processing
Да, к этому и пришел. Но где-то в глубине души надеялся что у кого-то есть скриптик и это уже сделано))) В целом регуляркой давно не пользовался и сейчас надо будет снова восстанавливать...)
источник

AB

Alex Bell in Natural Language Processing
Хотя конечно это наверное будет быстро
источник

Eg

Elena gisly in Natural Language Processing
Подстава с дефисами, наверное
источник

AB

Alex Bell in Natural Language Processing
Ну есть нюансы, но пока вижу что дефисы с пробелами с двух сторон, а переносы без пробелов. Даже без учета что есть много мест где не дефисы,  а минусы
источник

N

Natalia in Natural Language Processing
нууу как не убрать при этом слова, где дефис — это дефис
источник

N

Natalia in Natural Language Processing
но вообще большой процент даже сверка со словарём большого корпуса даст, конечно
источник

IK

Ilya Kalinin in Natural Language Processing
Ну, их во-первых мало на границах строк, во-вторых можно выделить несколько типовых ситуаций (повтор слова, пол и полу) а в третьих если правильно готовили текст они раньше повторялтсь в начале следующей строки. Зависит от того, как распознано, конечно... Но все равно делали замену в Ворде, так что будет не хуже.
источник

AB

Alex Bell in Natural Language Processing
В целом думаю, как можно минимизировать ручную работу. Книг не сильно много - 350 шт по 400 стр в среднем. Кроме того что описали больше ничего не нашел.
источник

AB

Alex Bell in Natural Language Processing
Так что выбор не богат)))
источник
2021 December 04

YB

Yuri Baburov in Natural Language Processing
Похоже на усилительную частицу (как в "страсть какой красивый"), а там точно второго значения с  существительным нет? Они же по частотности в корпусе сортированы
источник

AF

Alexander Fedorenko in Natural Language Processing
Посмотрите еще и https://vektonn.io/

UPD Их канал https://t.me/vektonn
источник

YB

Yuri Baburov in Natural Language Processing
import sys, re
text=open(sys.argv[1], 'rt',encoding='utf-8').read()
text = re.sub('(\w)-\s*\n(\w)', r'\1\2', text, re.S)
open(sys.argv[1], 'wt',encoding='utf-8').write(text)
использовать:
python3 script.py file.txt
источник

AB

Alex Bell in Natural Language Processing
Благодарю Юрий  все получилось🙏
источник
2021 December 05

AB

Alex Bell in Natural Language Processing
Добрый вечер, Юрий и конечно же коллеги!
Вот вылез еще один такой момент.:
При чтении, конец линии (строки) заканчивается словом "их", а на следующей линии следует слово "топографических" и вот оно считывается слитно и все великолепие решения по удалению переносов портит. Вот такая беда)
источник

A

Andrey in Natural Language Processing
text = text.replace('\n', " ")

должно помочь в начале
источник

AB

Alex Bell in Natural Language Processing
Ура!))) Да, это же я  '\n'  удалил с заменой на пустую строку. Важно что надо это сделать раньше.
Благодарю!!!
источник

N

Natalia in Natural Language Processing
мой ответ, если что, был с учётом специфики моих файлов, а там иногда получаются просто уже не построчно тексты, а сплошняком (т.е. уже слеплены слова и строки), поэтому эти ложные дефисы-переносы встречаются в середине слова, там тупо по концам строк не пофиксить :)
а так да, если всё попроще, то эти решения должны помогать
источник

AB

Alex Bell in Natural Language Processing
Да, действительно и такие местами встречаются.
источник