Size: a a a

2020 July 30

SP

Sergei Polikarpov in Localizer
Кстати в паре En>Ru, которую таус собирал из несколько других источников (у них написано на сайте) - в лидеры выбился кастом
источник

НФ

Надежда Фокина... in Localizer
Sergei Polikarpov
Ну тогда вот вам надежда  :)
Всем привет! Вот так неожиданно пришла популярность)
источник

IR

Irina Rybnikova in Localizer
Надежда Фокина
Всем привет! Вот так неожиданно пришла популярность)
источник

n

ninqueistar in Localizer
Sergei Polikarpov
Кстати в паре En>Ru, которую таус собирал из несколько других источников (у них написано на сайте) - в лидеры выбился кастом
Спасибо!
источник

n

ninqueistar in Localizer
Sergei Polikarpov
А про результаты исследования в ковид домене, ответ очень простой  - датасет оказался очень разнородным, по сути его объединяли только ключевые слова , например death (которых полно в той же библии и которая соответственно тоже попала в ковид-датасет). Неоднородность плюс сильная локализованность переводов - вот обучение и мало что дало. У клиентов, для которых данные реально взяты из одного направления и их достаточно - кастомизация движков показывает стабильный прирост)
Логично. Но это по состоянию на сегодня. Точнее, уже на вчера. Прогнозы на ближайшее будущее примерно такие же?
источник

SP

Sergei Polikarpov in Localizer
Я считаю что завтрашний день - кастомизация (дообучение)  вместо глоссариев.
источник

SP

Sergei Polikarpov in Localizer
Если у вас стандартные для отрасли и связные тексты - мт сток уже сейчас справляется хорошо
источник

SP

Sergei Polikarpov in Localizer
Если у вас есть особенная терминология и вы раньше записывали её в глоссарий и отправляли переводчику как отдельный словарь - завтра вы будете писать сто предложений с нужным вам правильным переводом в контексте и отправлять их на дообучение в кастомную модель
источник

SP

Sergei Polikarpov in Localizer
«Но это не точно» (с)
источник

n

ninqueistar in Localizer
Sergei Polikarpov
Я считаю что завтрашний день - кастомизация (дообучение)  вместо глоссариев.
Спасибо за развернутый ответ!
источник

SG

Serge Gladkoff in Localizer
Sergei Polikarpov
Я считаю что завтрашний день - кастомизация (дообучение)  вместо глоссариев.
Мысль, imho, неверная. Хотя бы потому, что переводчик никуда не девается и ему тоже нужен доступ к правильным лингвистическим данным. Т.е., что данные направляются в кастомную модель - это пожалуйста, но редактору и переводчику эти данные тоже нужны. Вот когда переводчик совсем исчезнет, тогда конечно и память и глоссарии уже не будет нужны. А пока что - нужны :). И тренировка модели никоим образом не заменяет того, что доступ к этим данным переводчику тоже нужен.
источник
2020 August 03

SA

Sergey Andreev in Localizer
А насколько уже распространены по вашему опыту сценарии, где не нужен переводчик? E-discovery? Контакт-центры / чатботы? Нередактируемые переводы в е-коммерсе а-ля Aliexpress?
источник

n

ninqueistar in Localizer
Sergey Andreev
А насколько уже распространены по вашему опыту сценарии, где не нужен переводчик? E-discovery? Контакт-центры / чатботы? Нередактируемые переводы в е-коммерсе а-ля Aliexpress?
Напр., чаты саппорта, да. Но все равно нужен человек, пусть даже необязательно переводчик, для настройки.

Вот ещё интересный кейс MT для UGC, например, от Language IO:
https://www.nimdzi.com/machine-translation-for-user-generated-content/
источник

AA

Alexander Ashikhin in Localizer
Статьи в FAQ и справках еще, привет Майкрософт)
источник
2020 August 04

n

ninqueistar in Localizer
источник

MG

Mike Gorbunov in Localizer
Имхо, за голый МТ без постредактуры пора уже санкции вводить против тех, кто его использует. Мы смеемся над переводами с Али и Ибея, хотя по факту это днище позорнейшее, ибо все эти миллионы товаров вполне каталогизируются в какие-нибудь 10-20 тысяч слов, которые очень легко перевести людьми и исправлять по мере необходимости. Но нет, мы прикрутим движок и позволим продавцам описывать свое барахло своими словами, чтобы на запросы покупателя поиск всякий треш выдавал.
источник

AM

Andrey M in Localizer
недавно на WLRU была очень интересная презентация по поводу сотрудничества с Алибаба в области перевода.
источник

MG

Mike Gorbunov in Localizer
Andrey M
недавно на WLRU была очень интересная презентация по поводу сотрудничества с Алибаба в области перевода.
там рассматривали алибабу как платформу для переводческих заказов в сегменте b2b. к алиэкспрессу отношения никакого эти штуки не имеют, к сожалению
источник

AS

Anastasia Shkot in Localizer
Коллеги, добрый день,

последнее время краудин совсем не добропорядочно начал сегментировать тексты,  разбивает их на куски в несколько предложений и даже абзацев. При этом, процесс выгрузки файлов из наших источников ни коим образом не менялся, да и происходит это с файлами разных форматов — от .html до элементарного .docx.
Каждый новый текст — пляска с бубном: перед тем, чтобы отправить исполнителям, по пять раз вычищаем все теги, которые теперь краудин отказывается кушоц (например, самый примитивный перенос строки, который особенно смущает КИ, когда он двойной).

Кто-нибудь с этим сталкивался? И есть ли этому лечение? Или уже пора искать что-то другое?
Времени на редактуру того, что редактироваться не должно, все жальче и жальче.
источник

AA

Alexander Ashikhin in Localizer
А что говорит поддержка?)
источник