Size: a a a

Natural Language Processing

2020 June 02

YB

Yuri Baburov in Natural Language Processing
не, я подумал, ты про человека/агентство говоришь.
источник

YB

Yuri Baburov in Natural Language Processing
в целом, переводчики сейчас не сильно отличаются. что deepl , что гугл. было где-то сравнение на наборе языков, можешь поискать.
источник

YB

Yuri Baburov in Natural Language Processing
а сколько там предложений в корпусе нужно перевести?
источник

YB

Yuri Baburov in Natural Language Processing
десятки, сотни тысяч, миллионы?
источник

YB

Yuri Baburov in Natural Language Processing
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
а сколько там предложений в корпусе нужно перевести?
Порядка 10M символов, то бишь 100К предложений.
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Порядка 10M символов, то бишь 100К предложений.
Text translation (NMT general models)    $20 per million characters
всего что-то порядка $200 у гугла, получается.
или можно брать проксики + бесплатный гугл/deepl , они же дают пользователям что-то переводить без регистрации.
источник

YB

Yuri Baburov in Natural Language Processing
могу вложиться частично (или по согласованию с работодателем, даже полностью), и сделаем открытый датасет. штука очень полезная для всех русских чат-ботов.
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
могу вложиться частично (или по согласованию с работодателем, даже полностью), и сделаем открытый датасет. штука очень полезная для всех русских чат-ботов.
Слушай, было бы клёво, если бы удалось скинуться.

Там, конечно, диалоги не то чтобы очень глубокомысленные (собирались на Турке). Типа такого:
- Got a bag of candy I'm polishing off. Diabetes be damned
- uh oh! Have you checked your sugar lately?
- I haven't gotten a physical in over a year.
- After that bag of candy, you may want to!
Интересно, что Яндекс в веб-версии переводит этот текст абсолютно адекватно, а вот в API походу сидит более дешёвая моделька (возможно, даже фразовая а не нейронная), и выдаёт какой-то тупняк.
источник

DK

Denis Kirjanov in Natural Language Processing
David (ddale) Dale
Слушай, было бы клёво, если бы удалось скинуться.

Там, конечно, диалоги не то чтобы очень глубокомысленные (собирались на Турке). Типа такого:
- Got a bag of candy I'm polishing off. Diabetes be damned
- uh oh! Have you checked your sugar lately?
- I haven't gotten a physical in over a year.
- After that bag of candy, you may want to!
Интересно, что Яндекс в веб-версии переводит этот текст абсолютно адекватно, а вот в API походу сидит более дешёвая моделька (возможно, даже фразовая а не нейронная), и выдаёт какой-то тупняк.
Так это ж стандартная тема, со спеллером та же история — апи и внутренняя разработка отличаются качеством на порядок
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Слушай, было бы клёво, если бы удалось скинуться.

Там, конечно, диалоги не то чтобы очень глубокомысленные (собирались на Турке). Типа такого:
- Got a bag of candy I'm polishing off. Diabetes be damned
- uh oh! Have you checked your sugar lately?
- I haven't gotten a physical in over a year.
- After that bag of candy, you may want to!
Интересно, что Яндекс в веб-версии переводит этот текст абсолютно адекватно, а вот в API походу сидит более дешёвая моделька (возможно, даже фразовая а не нейронная), и выдаёт какой-то тупняк.
меня тут беспокоит только то, как правильно стороны определять. если там всегда 4 фразы от двух сторон поочерёдно говорящих, то ок. это можно использовать тогда для модели.
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
меня тут беспокоит только то, как правильно стороны определять. если там всегда 4 фразы от двух сторон поочерёдно говорящих, то ок. это можно использовать тогда для модели.
Там табличка на самом деле с размеченными speaker_id и эмоцией, которую первый спикер (рассказчик) должен изображать. А второй спикер (слушатель) должен эмпатировать)
источник

D(

David (ddale) Dale in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
ну если разметка по ролям есть, то моделька должна неплохая получиться из этого.
источник

V

Viktor in Natural Language Processing
тут недавно 🤗 выпустила модель Helsinki-NLP/opus-mt-{src}-{tgt}
трогал для перевода en->ru
неплохо переводит (понятное дело что сразу длинное предложение не кушает. лучше подавать < 1024 символов)
ну и по скорости оч даже хорошо
источник
2020 June 03

YB

Yuri Baburov in Natural Language Processing
Viktor
тут недавно 🤗 выпустила модель Helsinki-NLP/opus-mt-{src}-{tgt}
трогал для перевода en->ru
неплохо переводит (понятное дело что сразу длинное предложение не кушает. лучше подавать < 1024 символов)
ну и по скорости оч даже хорошо
Opus -- корпус субтитров? Он же небольшой
источник

AL

Anton Lozhkov in Natural Language Processing
Yuri Baburov
Opus -- корпус субтитров? Он же небольшой
Коллекция из нескольких (сабы, WMT, UN, etc)
источник

AK

Anton K. in Natural Language Processing
ребята, кроме tesseract ocr что-то еще есть? что-то у меня оно плохие результаты дает
источник

MM

Mikhail Mashkovich in Natural Language Processing
Anton K.
ребята, кроме tesseract ocr что-то еще есть? что-то у меня оно плохие результаты дает
Поищите в этом чате по слову Sharepoint
источник

AK

Anton K. in Natural Language Processing
Mikhail Mashkovich
Поищите в этом чате по слову Sharepoint
спасибо за подсказку
источник