Size: a a a

Natural Language Processing

2020 August 09

IS

I Sh in Natural Language Processing
В w2v скорее всего получится, что кошка будет равна собаке и т.д. Поэтому я бы брал какие-то другие вектора. Но тут возникает и другой вопрос - будет ли векторное пространство одного языка совпадать с векторным пространством другого языка? Я думаю, что нет.
источник

N

Nire in Natural Language Processing
I Sh
В w2v скорее всего получится, что кошка будет равна собаке и т.д. Поэтому я бы брал какие-то другие вектора. Но тут возникает и другой вопрос - будет ли векторное пространство одного языка совпадать с векторным пространством другого языка? Я думаю, что нет.
Вот об этом тоже думал. Возможно стоит взять вместо русского языка другой, из тюркских смежных, например казахский.
источник

N

Nire in Natural Language Processing
А русско-казахский уже вроде нормально переводит.
источник

IS

I Sh in Natural Language Processing
Всё-таки казахский далековат от якутского. И я не знаю, что у вас получится при сравнении векторов. Только по одному слову переводить... Ну, для этого можно просто словарь отсканировать - и то лучше будет. Если же нужен именно переводчик, нужно искать параллельные корпусы. Есть официальные документы - уже хорошо. Посмотрите какую-нибудь школьную литературу - обязательно сказки или Пушкин есть на обоих языках. Посмотрите фильмы. И т.д.
источник

N

Nire in Natural Language Processing
I Sh
Всё-таки казахский далековат от якутского. И я не знаю, что у вас получится при сравнении векторов. Только по одному слову переводить... Ну, для этого можно просто словарь отсканировать - и то лучше будет. Если же нужен именно переводчик, нужно искать параллельные корпусы. Есть официальные документы - уже хорошо. Посмотрите какую-нибудь школьную литературу - обязательно сказки или Пушкин есть на обоих языках. Посмотрите фильмы. И т.д.
Переводы есть, но их проблема, что они либо в древнем стиле. Либо вольный перевод, чтобы сохранить стихотворный вид.
источник

N

Nire in Natural Language Processing
Надо в общем подумать. Как собрать корпусы.
источник

IS

I Sh in Natural Language Processing
Посмотрите, может тут что найдёте:

https://linghub.ru
http://opus.nlpl.eu

И Библию ещё поищите, все начинают с Библии))
источник

IS

I Sh in Natural Language Processing
А в случае языка России - может следует поискать собрание сочинений Ленина, Маркса, документы партии. Ведь, их тоже переводили на кучу языков, как Библию.
источник

N

Nire in Natural Language Processing
I Sh
А в случае языка России - может следует поискать собрание сочинений Ленина, Маркса, документы партии. Ведь, их тоже переводили на кучу языков, как Библию.
О, идея крутая, спасибо.
источник

SB

Sergey Bushmanov in Natural Language Processing
Сложности машинного перевода (реклама ASAP Utilities в ФБ)
источник

I

I Апрельский... in Natural Language Processing
I Sh
В w2v скорее всего получится, что кошка будет равна собаке и т.д. Поэтому я бы брал какие-то другие вектора. Но тут возникает и другой вопрос - будет ли векторное пространство одного языка совпадать с векторным пространством другого языка? Я думаю, что нет.
источник

IS

I Sh in Natural Language Processing
да, я знаком с этим материалом (и некоторому другими на эту тему). Но если бы всё было так просто...
источник

N

Natalia in Natural Language Processing
Nire
Неожиданно оказалось, что датасета нет. Подскажите, как вы их собираете для языков?


Нашел древние текста и документы от гос органов (в регионе требуют все приказы на двух языках выпускать) и все
искать параллельные тексты, как ещё
источник

I

I Апрельский... in Natural Language Processing
I Sh
да, я знаком с этим материалом (и некоторому другими на эту тему). Но если бы всё было так просто...
А кто сказал что просто))))
Мне просто показалось категоричность в твоих словах и я решил вкинуть, что рисеч идёт (шел?) и принес некоторые успехи.
источник

N

Natalia in Natural Language Processing
даже Библия и простецкие сайты подойдут
источник

N

Natalia in Natural Language Processing
Nire
Неожиданно оказалось, что датасета нет. Подскажите, как вы их собираете для языков?


Нашел древние текста и документы от гос органов (в регионе требуют все приказы на двух языках выпускать) и все
это что ж за язык, если ВСЁ
источник

N

Natalia in Natural Language Processing
и да, для любой модели нейросетевого переводчика нужен миллион предложений или больше
источник

N

Natalia in Natural Language Processing
это много
источник

N

Natalia in Natural Language Processing
для языка со сложной морфологией нужно ещё больше
источник

N

Natalia in Natural Language Processing
есть какой-то ирландский проект, собирающий сайты на разных языках, но я вечно забываю название его
источник