Size: a a a

Natural Language Processing

2019 October 14

YB

Yuri Baburov in Natural Language Processing
Ну так ты можешь теперь по этим индексам поделить на слова и пунктуацию.
источник

YB

Yuri Baburov in Natural Language Processing
И хранить как список строк уже
источник

A1

Art 141 in Natural Language Processing
Да, так будет лучше.
источник

A

Andrey in Natural Language Processing
Добрый день, есть задача, Можете посмотреть, насколько она решается средствами NLP.   Есть художественный перевод в голладнского одной книги. В последний момет в ворде весь перевод осортировали по абзацам ПО АЛФАВИТУ ( и сохранили конечно, без копий резервных).     Сделал Гугл Sheets с нумерацией исходных абзацев - и перевел гуглтранслейтом на русский.  Перевод чудовищный, но где-то рядом стоит.   Как сопоставить ему русские абзацы?
источник

m

memoryfull in Natural Language Processing
Andrey
Добрый день, есть задача, Можете посмотреть, насколько она решается средствами NLP.   Есть художественный перевод в голладнского одной книги. В последний момет в ворде весь перевод осортировали по абзацам ПО АЛФАВИТУ ( и сохранили конечно, без копий резервных).     Сделал Гугл Sheets с нумерацией исходных абзацев - и перевел гуглтранслейтом на русский.  Перевод чудовищный, но где-то рядом стоит.   Как сопоставить ему русские абзацы?
Можно рискнуть и свести к задаче approximate string matching русского исходного перевода и Google-Translated версии. Если абазцы короткие, то так (в R):

library(data.table)
library(stringdist)

# Load a CSV with source Dutch paragraphs
# (column "nl") and their Google-Translated
# Russian counterparts (column "ru")
# (one paragraph per line)
nl_ru_para_pairs <- data.table::fread("nl_ru_pairs.csv")

# Load a CSV with target Russian translations
# (column "ru") in alphabetical order
# (one paragraph per line)
ru_paras <- data.table::fread("ru_paras.csv")

# Map target Russian translations to source Dutch paras
ru_paras[, nl_inferred := nl_ru_para_pairs[stringdist::amatch(ru_paras$ru, nl_ru_para_pairs$ru, method = "qgram", q = 5)]$nl ]

# NB: experiment with different string-matching methods
# in amatch to obtain feasible results. Beware the memory and time
# consumption of the task. (https://journal.r-project.org/archive/2014-1/loo.pdf)

# Obtain the order for target Russian translations.
# NB: duplicates are not respected.
ru_paras[, source_order := base::match(ru_paras$nl_inferred, nl_ru_para_pairs$nl)]


Это не отменяет ручных правок потом.
источник

A

Andrey in Natural Language Processing
memoryfull
Можно рискнуть и свести к задаче approximate string matching русского исходного перевода и Google-Translated версии. Если абазцы короткие, то так (в R):

library(data.table)
library(stringdist)

# Load a CSV with source Dutch paragraphs
# (column "nl") and their Google-Translated
# Russian counterparts (column "ru")
# (one paragraph per line)
nl_ru_para_pairs <- data.table::fread("nl_ru_pairs.csv")

# Load a CSV with target Russian translations
# (column "ru") in alphabetical order
# (one paragraph per line)
ru_paras <- data.table::fread("ru_paras.csv")

# Map target Russian translations to source Dutch paras
ru_paras[, nl_inferred := nl_ru_para_pairs[stringdist::amatch(ru_paras$ru, nl_ru_para_pairs$ru, method = "qgram", q = 5)]$nl ]

# NB: experiment with different string-matching methods
# in amatch to obtain feasible results. Beware the memory and time
# consumption of the task. (https://journal.r-project.org/archive/2014-1/loo.pdf)

# Obtain the order for target Russian translations.
# NB: duplicates are not respected.
ru_paras[, source_order := base::match(ru_paras$nl_inferred, nl_ru_para_pairs$nl)]


Это не отменяет ручных правок потом.
Спасибо! Именно то,  что нужно!
источник

VI

Vitaly Ivanin in Natural Language Processing
Подскажите, есть ли какие-то тулзы чтобы из документов (doc, docx, rtf) извлекать только полезный текст? Я имею в виду дропать таблицы, например
источник

AM

Alex Mak in Natural Language Processing
Vitaly Ivanin
Подскажите, есть ли какие-то тулзы чтобы из документов (doc, docx, rtf) извлекать только полезный текст? Я имею в виду дропать таблицы, например
Библиотека python-docx
Лучше именно с docx работать т к это xml (и можно даже заморочиться и даже написать какой-то свой узко специальный парсер).
Но у docx были когда я его смотрел например огромный проблемы с извлечением списков (про таблицы не знаю), но может за прошедшие пол года его дописали...
источник

VI

Vitaly Ivanin in Natural Language Processing
Alex Mak
Библиотека python-docx
Лучше именно с docx работать т к это xml (и можно даже заморочиться и даже написать какой-то свой узко специальный парсер).
Но у docx были когда я его смотрел например огромный проблемы с извлечением списков (про таблицы не знаю), но может за прошедшие пол года его дописали...
оно не работает с doc(
источник

AM

Alex Mak in Natural Language Processing
Vitaly Ivanin
оно не работает с doc(
«Сохранить как...» -> .docx ?
Я ж написал, что с докиксом гораздо удобнее работать, чем с док или ртф
источник

VI

Vitaly Ivanin in Natural Language Processing
ну, у меня просто довольно много файлов)
источник

VI

Vitaly Ivanin in Natural Language Processing
придется мб их конвертить в docx как-нить
источник

VI

Vitaly Ivanin in Natural Language Processing
через comptypes
источник

AM

Alex Mak in Natural Language Processing
Vitaly Ivanin
ну, у меня просто довольно много файлов)
Ок. Тогда ответ мой:
1. Про doc не подскажу
2. Я бы пошел в гугл со строкой «doc to docx batch convert»
источник

VI

Vitaly Ivanin in Natural Language Processing
Окей, спасибо
источник

AY

Anastasia Yashch in Natural Language Processing
Подскажите, пожалуйста, а можно как-то использовать через питон переводчик-промт? Или какой-нибудь другой, который именно предложениями хорошо переводит? Спасибо!
источник

AY

Anastasia Yashch in Natural Language Processing
Задумка такая: есть большие тексты на русском языке, которые бы хотелось по одному предложению перевести, вручную делать долго, тексты большие
источник

AM

Alex Mak in Natural Language Processing
источник

T

Teemoor in Natural Language Processing
Anastasia Yashch
Подскажите, пожалуйста, а можно как-то использовать через питон переводчик-промт? Или какой-нибудь другой, который именно предложениями хорошо переводит? Спасибо!
источник

AY

Anastasia Yashch in Natural Language Processing
Точно, вот про DeepL я и забыла! Спасибо!
источник