Size: a a a

Natural Language Processing

2021 November 10

SS

Sergey Sikorskiy in Natural Language Processing
В английском корпусе не только грамматические ошибки, но и семантические. Причем, по большей части, именно семантические.
источник

IS

Ivan Smurov in Natural Language Processing
У нас в русском варианте есть классификация по типам ошибок. Семантические там есть, конечно, но если они не интересуют, можно отфильтровать
источник

ID

Ivan Dolgov in Natural Language Processing
а не подскажешь, где можно посмотреть на корпус с семантическими ошибками?
источник

IS

Ivan Smurov in Natural Language Processing
Пока нигде, как Катя написала выше, мы ещё только готовим публикацию. Через пару месяцев зарелизим
источник

ID

Ivan Dolgov in Natural Language Processing
спасибо, не увидел сообщение Кати, очень интересно будет посмотреть
источник

SS

Sergey Sikorskiy in Natural Language Processing
Я имел в виду CoLA .
Например: *John was tall, but I don't know on what occasions.*
Грамматически предложение абсолютно корректно.
источник

ID

Ivan Dolgov in Natural Language Processing
что-то я все прочитал по диагонали и не понял, спасибо за разъяснение
источник

SS

Sergey Sikorskiy in Natural Language Processing
Вы совершенно случайно не собираетесь делать точную аннотацию ошибки? Например, что именно не верно с грамматикой?
источник

AN

Aydar Nasyrov in Natural Language Processing
Прошу Вас продублировать ссылку в чатик. Пожаааалуйста))
источник

IS

Ivan Smurov in Natural Language Processing
Смотря что означает точную. У нас порядка 7 типов ошибок.
источник

ck

cnstntn kndrtv in Natural Language Processing
Посоветуйте мультиязычную модель для сентиментов из 🤗
источник

ck

cnstntn kndrtv in Natural Language Processing
Или, если мне нужно решить задачу sentiment analysis на 100 языках одной моделью, где взять датасеты. Не хотелось бы конечно - это долго.
источник

SS

Sergey Sikorskiy in Natural Language Processing
7 типов не кажется достаточным, чтобы описать ньюансы языка …
Проблемы с согласованием, проблемы с управлением, семантическая ошибка …
Вот уже и почти половина всех типов, а ведь в языке есть много разных не сразу заметных ньюансов корректность работы с которыми хотелось бы проверять.
источник

DD

David Dale in Natural Language Processing
Кажется, тональность примерно сохраняется при переводе, поэтому я бы тупо напереводил интересующие тебя датасеты на все языки.
источник

ck

cnstntn kndrtv in Natural Language Processing
Спасибо. Тоже выход. Если английский и русский еще понятны, то как браться за китайский, или вообще грузинский
источник

ck

cnstntn kndrtv in Natural Language Processing
Нужно выбрать трансформер. Тестил схожесть предложений на паре языков, лучше всего вышло у  sentence-transformers/paraphrase-xlm-r-multilingual-v1, там используется XLMRobertaModel. Что еще посоветуете попробовать?
источник

ck

cnstntn kndrtv in Natural Language Processing
Глупый вопрос. Прикрутить knn, logreg и подобное поверх векторизатора предложений на трансформерах для классификации - совсем странная идея?
источник

DD

David Dale in Natural Language Processing
Ваще не странная, постоянно так делаю. Для few-shot классификации коротких текстов, кажется, вообще ничего лучше, чем sentence encoder + knn, человечество так и не придумало.
источник

ck

cnstntn kndrtv in Natural Language Processing
То что нужно в конце дня)
источник
2021 November 11

AG

Alexander Gambashidz... in Natural Language Processing
друзья, есть ли у кого веса русского longformer ?
источник