Size: a a a

Natural Language Processing

2021 May 24

AW

Alex Wortega in Natural Language Processing
Да, я тоже про это подумал
источник

DD

David Dale in Natural Language Processing
Есть параметр генерации типа repeat_penalty, если его поднять повыше, то текст становится разнообразнее.
источник

AW

Alex Wortega in Natural Language Processing
тыкал - сейм шит. ну и вообще вроде этот парметр про повторение одного и того же токена
источник

AN

Aydar Nasyrov in Natural Language Processing
А что если Сделать кастомную функцию проверки возвращаемой строки, если они одинаковые, то...
источник

AW

Alex Wortega in Natural Language Processing
можно но звучит как костыль
источник

VP

Vladimir P in Natural Language Processing
В порядке бреда, к каждому инпуту добавляешь случайное слово
источник

Nd

NKJHF dfd in Natural Language Processing
Всем привет! Переобучиваю DeepSpeech на русский язык в гугл колабе, но 13 минут на каждую эпоху - слишком долго для меня сейчас. Какие могут быть выходы из этой ситуации?
источник

A

Andrey in Natural Language Processing
колаб про?
источник

Nd

NKJHF dfd in Natural Language Processing
Нет
источник

VP

Vladimir P in Natural Language Processing
Уменьшить датасет. Обучать в половинной точности
источник

VP

Vladimir P in Natural Language Processing
Увеличить размер батча, если позволяет видеокарта
источник

Nd

NKJHF dfd in Natural Language Processing
Спасибо!
источник

AC

Alexander C in Natural Language Processing
🚀 @sberloga организует серию онлайн докладов по NLP (Natural Language Processing).  
⌚️ Предварительные даты и время - каждый четверг в 19.00 по Москве.
Дополнительная информация и подробные анонсы в телеграм канале @sberloga за пару дней до доклада. Видео записи этих и предыдущих докладов на ютуб канале - https://www.youtube.com/c/sberloga . Присоединяйтесь - будет интересно:

27 мая.  Давид Дале (@cointegrated (Сколтех)) "Предобученные модели для русского языка"

3 июня. Андрей Козлюк (@FutorioFranklin  (ПрессИндекс)) "TinyBert: 7.5x smaller and 9.4x faster"

Далее:
Игорь Шаталин "Разрешение кореферентности для русского языка"

А также: Андрей Лукьяненко, Михаил Нефедов, Eгор Плотников,
Александр Абрамов, Леонид Синев, Farid Khafizov

PS
Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Eсли вы готовы рассказать и/или порекомендовать хорошего докладчика обращайтесь - @boyadzhi или @Alexander_V_C
источник

A

Andrey in Natural Language Processing
купите, недорого стоит, 10 баксов в месяц
источник

OM

Orzhan Mikhail in Natural Language Processing
А sample=True, top_p, top_k какие? Если там greedy decoding, то температура никак не влияет
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
скачать готовую модель, всё равно в коллабе ничего серьёзного научить не получится.
источник

MC

Maxim Chistogov in Natural Language Processing
С чем связано то, что на колабе не получится ничего серьёзного обучить? Чем он будет хуже для задач CV или NLP в сравнении с использованием собственного GPU сервера?
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Объём данных гораздо больше, времени надо много. Та же модель от сбербанка 8 дней на 16 V100 учится, лучше её потюнить, чем старый deepspeech мучать. То же можно сказать про модели совы и воск.
источник

FF

Futorio Franklin in Natural Language Processing
Ресурсы довольно ограничены. Тот же жесткий диск с лимитом в 100гб (на всю виртуальную машину) бывает забивается в процессе обучения
источник

MC

Maxim Chistogov in Natural Language Processing
Т.е. основная суть в скорости обучения на очень больших объемах данных, а не в качестве обучения?
источник