Size: a a a

Natural Language Processing

2021 November 12

IG

Ilya Gusev in Natural Language Processing
На всякий случай, все известные мне датасеты по суммаризации с русским:

https://huggingface.co/datasets/csebuetnlp/xlsum
https://huggingface.co/datasets/mlsum
https://huggingface.co/datasets/IlyaGusev/gazeta
https://huggingface.co/datasets/wiki_lingua
источник

VG

Vadim Gudkov in Natural Language Processing
Есть датасет по экстрактивной компрессии текста ещё.

https://github.com/natasha/corus/issues/47
источник

DD

David Dale in Natural Language Processing
крутяк! 🔥
источник

IG

Ilya Gusev in Natural Language Processing
не видел, спасибо
источник

IG

Ilya Gusev in Natural Language Processing
можно ещё упомянуть https://github.com/dialogue-evaluation/RuSimpleSentEval
источник

OR

Oleg Ruban in Natural Language Processing
https://habr.com/ru/company/yandex/blog/586634/ - а есть нечто подобное из твоих разработок для Яндекс.Новостей в открытом доступе? Интересует выжимка к одной новостной статье в несколько тезисов, например, как у проекта "42 секунды"?
источник

IG

Ilya Gusev in Natural Language Processing
В плане датасета или модели?
Если датасета - то, как выше уже было сказано, датасета для экстрактивной суммаризации на русском как будто бы нет.
Если модели - то её довольно легко собрать, хотя бы по алгоритму из статьи.
источник

IG

Ilya Gusev in Natural Language Processing
в случае с одним документом всё ещё проще, там в статье основные варианты моделей для такого случая перечислены
источник

IG

Ilya Gusev in Natural Language Processing
источник

OR

Oleg Ruban in Natural Language Processing
именно датасет интересовал) у Газеты вижу, что при обучении таргетом был лид-абзац, где выжимка ключевого содержится, но со сменой редакции подходы к лиду там могли меняться, видел много шумов в том датасете + малое кол-во рубрик и стилей написания текстов. Поэтому и возник вопрос, а есть ли что-то готовое получше качеством)
источник

IG

Ilya Gusev in Natural Language Processing
Прям много шума в Газете я не видел. Все 4 известные мне датасета я уже скинул. Можно замешать mlsum (mk.ru), xlsum (bbc) и Газету, будет скорее всего стабильнее. Разве что у mlsum всего одно предложение в саммари.
источник

OR

Oleg Ruban in Natural Language Processing
спасибо)
источник

A*

Arman * in Natural Language Processing
привет всем, у меня задача такая, есть 5 классов и нужно размечать руками датасет для тренировки, какое количество на класс будет хорошим количеством? + 20% на валидацию естественно
источник

IG

Ilya Gusev in Natural Language Processing
Сильно зависит от задачи и домена. Обычно 1000 примеров на класс должно хватать, но они должны нормально пространство покрывать. Можно для этого active learning использовать: сэмлирование по неуверенности (максимальной энтропии), RECS и вот это всё. Вот тут основной набор методов: https://arxiv.org/pdf/2109.04847.pdf.
источник

RR

Rufina Rafikova in Natural Language Processing
Всем привет,
Тема trustworthy (надежного) искусственного интеллекта набирает обороты. Сколково даже проводит отдельную конференцию на эту тему. На на очередном научно-техническом вебинаре НТР и HITs Томского Государственного Университета Екатерина Филиппова из  Google Research Berlin определит надежность и то, как она связана с доверием (пользователей), и приведет примеры того, как эти определения можно применить в области языковых технологий. После этого  мы постараемся лучше понять используемые в наши дни модели и их слабые стороны и сделать их менее подверженными разнообразным рискам.


Когда: 16 ноября 2021, 14:00 MCK
Спикер: Екатерина Филиппова, Google Research Berlin, Берлин, Германия
Тема: Надежность систем обработки естественного языка
Где:  Zoom. Ссылка на регистрацию: https://us02web.zoom.us/webinar/register/2816215991698/WN_kbKAAzhKROWzI6lTEM8qGg
источник

DV

Dima Veselov in Natural Language Processing
Переслано от Натэлла
3 декабря в Москве (и онлайн) пройдет конференция по разговорному AI для разработчиков и бизнеса Conversations 🔥 В этом году ключевые темы конференции — machine learning, синтез речи, речевая аналитика. Среди спикеров Conversations’21 — эксперты Yandex.Cloud, Сколтеха, Replika.ai, DeepPavlov, Skyeng, Speechmate, Huawei, SmartMarketReplika.ai, DeepPavlov, Skyeng, Speechmate, Huawei, SmartMarket и других компаний.

Вот 5 докладов конференции, которые ну просто нельзя пропустить:
☝🏻Сколтех — о том, как устроена автоматическая детоксикация текстов для борьбы с ненормативной лексикой и как можно фильтровать и перефразировать токсичные реплики в диалоговых системах.
✌️Skyeng — про то, как на основе даже короткой речи оценить уровень знания английского языка и произношение: как устроен препроцессинг с применением эвристик и 1dConv-сетей, зачем потребовалась оптимизация на Rust и как делить на части длинное аудио использования языка на разных уровнях владения (и почему BERT и Fasttext не подошли).
🤟🏻 Yandex.Cloud — о том, сколько MLOps можно оставить на датасайентисте на примере речевых технологий.
🖖🏼 Replika.ai Replika.ai —  о том, как они отказались от Open AI и теперь радуются жизни (интригующе!).
🖐 Speechmate — о технологических новшествах smart-аудиоустройств с точки зрения «железа» на примере умных бейджей и о том, как подружить сервисы речевой аналитики с хардверной платформой.

Больше тем и спикеров на сайте Conversations.
🥳 Всем читателям канала организаторы предлагают специальный промокод на покупку билета с 10% скидкой: CONVS*NLp
источник

DV

Dima Veselov in Natural Language Processing
Переслано от Натэлла
источник

ИМ

Игорь Михайлов... in Natural Language Processing
Всем привет, я вчера спрашивал про анализ текстов на предмет эмоциональной окраски и черт личности автора. Спасибо всем за ссылки, я поизучал, очень полезно!
источник

ИМ

Игорь Михайлов... in Natural Language Processing
Теперь мне нужен эксперт в NLP, который понимает как это делается детально. Хочу проконсультироваться, консультацию оплачиваю) Напишите в личку, плз, кто готов
источник
2021 November 13

M

Max in Natural Language Processing
А не подскажите когда и где можно будет посмотреть?
источник