Size: a a a

Natural Language Processing

2021 March 16

DD

David Dale in Natural Language Processing
Alex Wortega
Ну потому что задача скорее на понимаю машиной текста, с чем до сих пор все плохо
Ну, есть куча нормальных работ по генерации и детекции парафраз, просто почему-то они до задачи переноса стиля почти не доехали.
источник

AW

Alex Wortega in Natural Language Processing
David Dale
Ну, есть куча нормальных работ по генерации и детекции парафраз, просто почему-то они до задачи переноса стиля почти не доехали.
Дык они сводятся принципиально к: ну давайте заменим на синоним
источник

DD

David Dale in Natural Language Processing
Alex Wortega
Дык они сводятся принципиально к: ну давайте заменим на синоним
всё ж лучше, чем на антоним, как в 90% статей по style transfer :)
источник

AW

Alex Wortega in Natural Language Processing
David Dale
С текстами гораздо сложнее. В картинке можно несколько пикселей перекрасить, да хоть вообще цвета инвертировать - и содержание картинки в целом сохранится.
А в текстах можно заменить пару слов, и смысл текста станет противоположным, или вообще пропадёт.
Так style transfer у картинок сильно по другому работает
источник

БД

Борис Добров... in Natural Language Processing
David Dale
Ну, есть куча нормальных работ по генерации и детекции парафраз, просто почему-то они до задачи переноса стиля почти не доехали.
Во многих работах перенос стиля выродился в смену  тональности - поменять негативные отзывы на позитивные. То есть тематика не трогается.

Трудно поставить академическую задачу при тематическом рерайтинге, так как непонятно как оценивать.
Родствено задаче abstractive summarization.

Механизмы копирования и генерации. Если есть генерация, то есть и галлюцинации.
Пока открытая проблема с учетом commonsense.

Но для seo текущего состояния  abstractive summarization достаточно.
источник

DD

David Dale in Natural Language Processing
Борис Добров
Во многих работах перенос стиля выродился в смену  тональности - поменять негативные отзывы на позитивные. То есть тематика не трогается.

Трудно поставить академическую задачу при тематическом рерайтинге, так как непонятно как оценивать.
Родствено задаче abstractive summarization.

Механизмы копирования и генерации. Если есть генерация, то есть и галлюцинации.
Пока открытая проблема с учетом commonsense.

Но для seo текущего состояния  abstractive summarization достаточно.
Оценивать понятно как: подобно переводу, составить хороший параллельный тестовый корпус, и на нём считать блё, руж, и другие цветные метрики.
Но это дорого, поэтому прощё отзывы с yelp в сотый раз ворошить)
источник

БД

Борис Добров... in Natural Language Processing
Дохлые все эти метрики для этих задач. В среднем коррелируют, но так себе.
Тут проблема в том, что нет четких ручных оценок.
Какие- то DUC-type  пирамиды очень дороги.
источник

N

Natalia in Natural Language Processing
конечно, дорого :)) да ещё и неблагодарная работа безымянных (чаще всего) разметчиков

хочется же слепить побыстрее, да попроще в плане затратности, но чтобы работало вжух!

а то до сих пор непонятно, почему тот же блё до сих пор настолько широко используется, когда очевидно, что в задаче перевода вариативность — это как раз норма
источник

AK

Alexandr Kuklavodovi... in Natural Language Processing
Привет)
Подскажите, кто может помочь с очень верхнеуровневой оценкой двух задач из типа STT и семантическим анализом текста
Тк являюсь новичком в этой области, хотелось бы уточнить у более опытных специалистов
источник

БД

Борис Добров... in Natural Language Processing
Alexandr Kuklavodovich
Привет)
Подскажите, кто может помочь с очень верхнеуровневой оценкой двух задач из типа STT и семантическим анализом текста
Тк являюсь новичком в этой области, хотелось бы уточнить у более опытных специалистов
Являюсь специалистом, просто не понимаю аббревиатуру STT,  а что такое семантический анализ текста, вообще никто ничего не знает.
Но конкретные задачи можно решать.
источник

AK

Alexandr Kuklavodovi... in Natural Language Processing
Борис Добров
Являюсь специалистом, просто не понимаю аббревиатуру STT,  а что такое семантический анализ текста, вообще никто ничего не знает.
Но конкретные задачи можно решать.
1) Раворачивание open-source проекта speech to text(например kaldi) + дообучение незнакомым словам(+ необходима разметка данных)
2) Как альтернатива 1 варианту, реализация собственного инструмента speech to text, пока просто интересна оценка
2) Семантический анализ по транскрибированным данным, те данным, которые были переведены в текст (слова-парзиты, маты, говорились ли нужные слова по заранее известному скрипту слов, установление причины почему клиент отказался от услуги по заранее подготовленным паттернам+синонимы этих паттернов)

Для начала глубоко не вдаваясь в детали, верхнеуровневая оценка в разрезе количство дней с учетом 1/2/3 человек(человеко-дни), работающих над вышеперечисленными задачками
источник

БД

Борис Добров... in Natural Language Processing
Alexandr Kuklavodovich
1) Раворачивание open-source проекта speech to text(например kaldi) + дообучение незнакомым словам(+ необходима разметка данных)
2) Как альтернатива 1 варианту, реализация собственного инструмента speech to text, пока просто интересна оценка
2) Семантический анализ по транскрибированным данным, те данным, которые были переведены в текст (слова-парзиты, маты, говорились ли нужные слова по заранее известному скрипту слов, установление причины почему клиент отказался от услуги по заранее подготовленным паттернам+синонимы этих паттернов)

Для начала глубоко не вдаваясь в детали, верхнеуровневая оценка в разрезе количство дней с учетом 1/2/3 человек(человеко-дни), работающих над вышеперечисленными задачками
У меня такой темой занимается студент, только не kaldi, но amazon. И тематика специальной лексики.
Много планов, но ограничено время и свободные ресурсы. Можно специально заняться, но дорого, только коммерчески интерсные решения или значимый научный продвиг.
источник

Р

Ромаша in Natural Language Processing
Alexandr Kuklavodovich
1) Раворачивание open-source проекта speech to text(например kaldi) + дообучение незнакомым словам(+ необходима разметка данных)
2) Как альтернатива 1 варианту, реализация собственного инструмента speech to text, пока просто интересна оценка
2) Семантический анализ по транскрибированным данным, те данным, которые были переведены в текст (слова-парзиты, маты, говорились ли нужные слова по заранее известному скрипту слов, установление причины почему клиент отказался от услуги по заранее подготовленным паттернам+синонимы этих паттернов)

Для начала глубоко не вдаваясь в детали, верхнеуровневая оценка в разрезе количство дней с учетом 1/2/3 человек(человеко-дни), работающих над вышеперечисленными задачками
в профильной группе по распознаванию речи это не так давно разбиралось, вы, вроде, там тоже состоите.
источник

БД

Борис Добров... in Natural Language Processing
Ромаша
в профильной группе по распознаванию речи это не так давно разбиралось, вы, вроде, там тоже состоите.
Нет времени все читать, только раз в неделю просматривать.

На мой взгляд основная проблема в том, что современые лучшие нейросетевые языковые модели имеют представления "в среднем" без хвостов.
Причем вы не можете самостоятельно дообучить модели для распознавания. Точнее в kaldi   вроде можно, но  amazon гораздо лучше.

И когда они встречают неизвестное слово, они его часто просто пропускают. Причем пропускают как раз значимые слова в предметной области.

Соответственно задача по максимально короткому контексту прпдсказть, какой состав словаря нужен. Все просто, но миллион нюансов.
источник

AK

Alexandr Kuklavodovi... in Natural Language Processing
Борис Добров
У меня такой темой занимается студент, только не kaldi, но amazon. И тематика специальной лексики.
Много планов, но ограничено время и свободные ресурсы. Можно специально заняться, но дорого, только коммерчески интерсные решения или значимый научный продвиг.
Тк это возможно коммерческий проект, желательно, что бы операции не уходили на другие сервера
источник

AK

Alexandr Kuklavodovi... in Natural Language Processing
Ромаша
в профильной группе по распознаванию речи это не так давно разбиралось, вы, вроде, там тоже состоите.
возможно, сейчас полистаю историю, обычно там очень много обсуждений, бывает не успеваю)
источник

БД

Борис Добров... in Natural Language Processing
Alexandr Kuklavodovich
Тк это возможно коммерческий проект, желательно, что бы операции не уходили на другие сервера
Да, я бы тоже предпочел локальную версию
Но что-то наши эксперименты с  другими вариантами не вдохновляют пока.

А если текст нормально трансаиибирован, то дальше все значительно проще.
источник

N

Nikolay in Natural Language Processing
Alexandr Kuklavodovich
Тк это возможно коммерческий проект, желательно, что бы операции не уходили на другие сервера
Посмотрите vosk. Там же прям докер можно взять, добавить предобученную модель с их же сайта и все сразу полетит. Vosk основан на kaldi, ну или как-то так
источник

SZ

Sergei Zotov in Natural Language Processing
для обсуждения vosk, кстати, заходите в https://t.me/speech_recognition_ru, там гораздо больше полезной информации
источник

N

Nikolay in Natural Language Processing
Alexandr Kuklavodovich
Тк это возможно коммерческий проект, желательно, что бы операции не уходили на другие сервера
источник