Size: a a a

Natural Language Processing

2020 August 09

SP

Sebastian Pereira in Natural Language Processing
Natalia
и да, для любой модели нейросетевого переводчика нужен миллион предложений или больше
Громкое утверждение.
источник

N

Natalia in Natural Language Processing
ну если вы хотите, чтобы он нормально переводил, то да
источник

N

Natalia in Natural Language Processing
а если не хотите, то, конечно, громкое
источник

N

Natalia in Natural Language Processing
пойду я отсюда, действительно
источник

N

Nire in Natural Language Processing
Natalia
есть какой-то ирландский проект, собирающий сайты на разных языках, но я вечно забываю название его
я знаю этот сайт кстати, но это не то
источник

N

Nire in Natural Language Processing
мне бы корпус 1к1 предложений собрать, пока 3к максимум найти могу
источник

N

Nire in Natural Language Processing
но с этими данными пока каша
источник

N

Natalia in Natural Language Processing
ой ну камон, даже Библия раза в два больше
источник

N

Natalia in Natural Language Processing
якутский?
источник

N

Nire in Natural Language Processing
Natalia
якутский?
да, 3к предложений?
источник

N

Nire in Natural Language Processing
)
источник

N

Nire in Natural Language Processing
мб мб
источник

N

Nire in Natural Language Processing
в основном текста переведены вольно, но которые я видел
источник

N

Nire in Natural Language Processing
помимо приказов
источник

N

Natalia in Natural Language Processing
ну не знаю, звучит очень забавно. один из наиболее живых малых языков России, а вы говорите, 3к наскрести сложно
источник

N

Natalia in Natural Language Processing
а думаете, в большинстве открытых параллельных корпусов мало вольно переведённых предложений? :)
источник

N

Nire in Natural Language Processing
Natalia
ну не знаю, звучит очень забавно. один из наиболее живых малых языков России, а вы говорите, 3к наскрести сложно
в силу того, что клавиатура появилась 4-5 лет назад у большенства, последние 30 лет писали по разному
источник

N

Nire in Natural Language Processing
например это слово все пишут как муьелее5и, русским транслитом
источник

N

Nire in Natural Language Processing
из-за этого язык сильно поменялся
источник

OS

Oleg Serikov in Natural Language Processing
Nire
Вместо того, чтобы писать кучу сложной логики, в планах сделать тупо транслейт моих текстов в русский и Наташей проходиться)) ну или любой другой готовый инструмент для русского языка юзать.
если конечная цель  — нер, то возможно, что 90% именованных сущностей — это просто заимстования из русского и их можно выцепить регулярками?)

ну + имена/геотеги нечётко на основе бд
источник