Телеграмм чат группы natural_language

Добрый день, есть задача, Можете посмотреть, насколько она решается средствами NLP. Есть художественный перевод в голладнского одной книги. В последний момет в ворде весь перевод осортировали по абзацам ПО АЛФАВИТУ ( и сохранили конечно, без копий резервных). Сделал Гугл Sheets с нумерацией исходных абзацев - и перевел гуглтранслейтом на русский. Перевод чудовищный, но где-то рядом стоит. Как сопоставить ему русские абзацы?

источник

11:34пожаловаться #4

m

memoryfull in Natural Language Processing

Andrey

Добрый день, есть задача, Можете посмотреть, насколько она решается средствами NLP. Есть художественный перевод в голладнского одной книги. В последний момет в ворде весь перевод осортировали по абзацам ПО АЛФАВИТУ ( и сохранили конечно, без копий резервных). Сделал Гугл Sheets с нумерацией исходных абзацев - и перевел гуглтранслейтом на русский. Перевод чудовищный, но где-то рядом стоит. Как сопоставить ему русские абзацы?

Можно рискнуть и свести к задаче approximate string matching русского исходного перевода и Google-Translated версии. Если абазцы короткие, то так (в R):

library(data.table)
library(stringdist)

# Load a CSV with source Dutch paragraphs
# (column "nl") and their Google-Translated
# Russian counterparts (column "ru")
# (one paragraph per line)
nl_ru_para_pairs <- data.table::fread("nl_ru_pairs.csv")

# Load a CSV with target Russian translations
# (column "ru") in alphabetical order
# (one paragraph per line)
ru_paras <- data.table::fread("ru_paras.csv")

# Map target Russian translations to source Dutch paras
ru_paras[, nl_inferred := nl_ru_para_pairs[stringdist::amatch(ru_paras$ru, nl_ru_para_pairs$ru, method = "qgram", q = 5)]$nl ]

# NB: experiment with different string-matching methods
# in amatch to obtain feasible results. Beware the memory and time
# consumption of the task. (https://journal.r-project.org/archive/2014-1/loo.pdf)

# Obtain the order for target Russian translations.
# NB: duplicates are not respected.
ru_paras[, source_order := base::match(ru_paras$nl_inferred, nl_ru_para_pairs$nl)]

Это не отменяет ручных правок потом.

источник

12:45пожаловаться #5

A

Andrey in Natural Language Processing

memoryfull

Можно рискнуть и свести к задаче approximate string matching русского исходного перевода и Google-Translated версии. Если абазцы короткие, то так (в R):

library(data.table)
library(stringdist)

# Load a CSV with source Dutch paragraphs
# (column "nl") and their Google-Translated
# Russian counterparts (column "ru")
# (one paragraph per line)
nl_ru_para_pairs <- data.table::fread("nl_ru_pairs.csv")

# Load a CSV with target Russian translations
# (column "ru") in alphabetical order
# (one paragraph per line)
ru_paras <- data.table::fread("ru_paras.csv")

# Map target Russian translations to source Dutch paras
ru_paras[, nl_inferred := nl_ru_para_pairs[stringdist::amatch(ru_paras$ru, nl_ru_para_pairs$ru, method = "qgram", q = 5)]$nl ]

# NB: experiment with different string-matching methods
# in amatch to obtain feasible results. Beware the memory and time
# consumption of the task. (https://journal.r-project.org/archive/2014-1/loo.pdf)

# Obtain the order for target Russian translations.
# NB: duplicates are not respected.
ru_paras[, source_order := base::match(ru_paras$nl_inferred, nl_ru_para_pairs$nl)]

Это не отменяет ручных правок потом.

Спасибо! Именно то, что нужно!

источник

13:39пожаловаться #6

VI

Vitaly Ivanin in Natural Language Processing

Подскажите, есть ли какие-то тулзы чтобы из документов (doc, docx, rtf) извлекать только полезный текст? Я имею в виду дропать таблицы, например

источник

13:50пожаловаться #7

AM

Alex Mak in Natural Language Processing

Vitaly Ivanin

Подскажите, есть ли какие-то тулзы чтобы из документов (doc, docx, rtf) извлекать только полезный текст? Я имею в виду дропать таблицы, например

Библиотека python-docx
Лучше именно с docx работать т к это xml (и можно даже заморочиться и даже написать какой-то свой узко специальный парсер).
Но у docx были когда я его смотрел например огромный проблемы с извлечением списков (про таблицы не знаю), но может за прошедшие пол года его дописали...

источник

13:54пожаловаться #8

VI

Vitaly Ivanin in Natural Language Processing

Alex Mak

Библиотека python-docx
Лучше именно с docx работать т к это xml (и можно даже заморочиться и даже написать какой-то свой узко специальный парсер).
Но у docx были когда я его смотрел например огромный проблемы с извлечением списков (про таблицы не знаю), но может за прошедшие пол года его дописали...

оно не работает с doc(

источник

14:10пожаловаться #9

AM

Alex Mak in Natural Language Processing

Vitaly Ivanin

оно не работает с doc(

«Сохранить как...» -> .docx ?
Я ж написал, что с докиксом гораздо удобнее работать, чем с док или ртф

источник

14:11пожаловаться #10

VI

Vitaly Ivanin in Natural Language Processing

ну, у меня просто довольно много файлов)

источник

14:12пожаловаться #11

VI

Vitaly Ivanin in Natural Language Processing

придется мб их конвертить в docx как-нить

источник

14:12пожаловаться #12

VI

Vitaly Ivanin in Natural Language Processing

через comptypes

источник

14:12пожаловаться #13

AM

Alex Mak in Natural Language Processing

Vitaly Ivanin

ну, у меня просто довольно много файлов)

Ок. Тогда ответ мой:
1. Про doc не подскажу
2. Я бы пошел в гугл со строкой «doc to docx batch convert»

источник

14:15пожаловаться #14

VI

Vitaly Ivanin in Natural Language Processing

Окей, спасибо

источник

14:15пожаловаться #15

AY

Anastasia Yashch in Natural Language Processing

Подскажите, пожалуйста, а можно как-то использовать через питон переводчик-промт? Или какой-нибудь другой, который именно предложениями хорошо переводит? Спасибо!

источник

16:54пожаловаться #16

AY

Anastasia Yashch in Natural Language Processing

Задумка такая: есть большие тексты на русском языке, которые бы хотелось по одному предложению перевести, вручную делать долго, тексты большие

источник

16:59пожаловаться #17

AM

Alex Mak in Natural Language Processing

https://yandex.ru/dev/translate/

yandex.ru

API Переводчика - Технологии Яндекса

С помощью API можно получить доступ к онлайн-сервису машинного перевода Яндекса.

источник

17:00пожаловаться #18

T

Teemoor in Natural Language Processing

Anastasia Yashch

Подскажите, пожалуйста, а можно как-то использовать через питон переводчик-промт? Или какой-нибудь другой, который именно предложениями хорошо переводит? Спасибо!

или https://www.deepl.com/docs-api.html или гугл

Deepl

DeepL API

источник

17:02пожаловаться #19

AY

Anastasia Yashch in Natural Language Processing

Точно, вот про DeepL я и забыла! Спасибо!

источник

17:02пожаловаться #20