Size: a a a

Natural Language Processing

2021 December 05

AB

Alex Bell in Natural Language Processing
Но я рассудил так, что минимум ошибок, опечаток и тд пусть будет. Иначе все в ручную работу превратится
источник
2021 December 06

d

dePuff in Natural Language Processing
А взять эти книги в другом формате без косяков - не вариант?
источник

AB

Alex Bell in Natural Language Processing
Нет, к сожалению они в другом виде отсутствуют.
Не очень они популярные,  это медицинские учебники и книги.
источник

A

Andrey in Natural Language Processing
переносы от дефисов... есть не до конца точная эвристика - число символов в строке.
источник

AB

Alex Bell in Natural Language Processing
Ну на вчера вполне рабочая последовательность, которую сформировал на подсказках из группы получилась, локально проверил, работает.
1. Убираю переносы
2. Добавляю вместо /n " " пробел
3. Удаляю спецсимволы
4. Удаляю стоп-слова
Пока на полном обьеме не проверял, но очевидно что это будет чище чем было)))
источник

RR

Rufina Rafikova in Natural Language Processing
Всем привет!

Нейронные сети показывают очень хорошие результаты практически во всех приложениях машинного обучения. Однако нейронные сети часто делают очень уверенные прогнозы для данных, которые лежат вне выборки, или данных на границе между классами. Во многих приложениях это неприемлемо, и поэтому способность оценить степень уверенности в предсказании является крайне важной и востребованной. Однако оценка неопределенности для нейронных сетей является нетривиальной задачей, и существующие подходы демонстрируют не очень высокое качество и зачастую требуют значительных вычислительных ресурсов.

На очередном научно-техническом вебинаре, который проводит НТР совместно с Высшей IT-школой ТГУ, Максим Панов из Сколтеха расскажет о существующих подходах к оценке неопределенности, включая методы калибровки моделей, методы построения ансамблей и байесовские нейронные сети. Особое внимание будет уделено современным численно эффективным подходам на основе одной нейронной сети, не требующим построения ансамбля и существенного изменения процедуры обучения.

Когда: 7 декабря 2021, 12:00 MCK
Спикер: Максим Панов, Сколтех, Москва, Россия
Тема: Оценка неопределенности: может ли ваша нейронная сеть оценить степень уверенность в своих прогнозах?
Где:  Zoom. Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215991698/WN_hf0e_NuJTj66rPqMN86IhQ
источник

BK

B K in Natural Language Processing
Переслано от B K
I want to trigger this pipeline on merge from development.
источник

IK

Ilya Kalinin in Natural Language Processing
Я в аналогичной задаче заменял не на пробел, а на уникальную последовательность из пары знаков - чтобы потом знать, где кончается строка.
источник

AB

Alex Bell in Natural Language Processing
👍
источник

FF

Futorio Franklin in Natural Language Processing
Эх, жаль, что в рабочее время
источник

RR

Rufina Rafikova in Natural Language Processing
Будет запись)
источник

A

Andrey in Natural Language Processing
если в бочку меда добавить ложку дёгтя..  Сколтех, это хорошо.
источник

TM

Toemik Mnemonic in Natural Language Processing
Ребят, никто не знает как отключить в токенайзере Spacy выделение отдельного токена(префикса) если перед строкой стоит не альфабетик? По умолчанию nlp("$Привет") имеет два токена [$, Привет] (мощность 2). нами ожидается получение одного токена в подобных ситуациях [Привет] (мощность 1)
источник

MB

Mark Baushenko in Natural Language Processing
Всем привет, какие есть русские language model для sentence2sentence ?
источник

DD

David Dale in Natural Language Processing
Привет!
Проще всего пофильтровать каталог huggingface по языку и типу модели 🙃
https://huggingface.co/models?language=ru&pipeline_tag=text2text-generation&sort=likes
источник

MB

Mark Baushenko in Natural Language Processing
спасибо, не знал что так можно. Но вопрос остается актуальным, хотелось бы услышать фидбек использования разных моделей
источник

KS

Konstantin Shitkov in Natural Language Processing
конкретизируй: какая задача, данные, ресурсы?
источник

MB

Mark Baushenko in Natural Language Processing
задача: дано tweet и label(toxic/no toxic). Нужно по заданному твиту сгенерировать reply с соответствующим лейблом
данные: неограниченное количество (ограничено количеством всех tweet-reply на русском в твитере)
ресурсы: 2x NVIDIA quadro RTX 6000 (48GB)
источник

d

dePuff in Natural Language Processing
Любой T5, который лезет в видеокарточку, 40 строк кода, учим - смотрим, что получилось, переделываем датасет )
источник

MB

Mark Baushenko in Natural Language Processing
воможно глупый вопрос, но почему например не GPT или Bert?
источник