Телеграмм чат группы natural_language

Ну на вчера вполне рабочая последовательность, которую сформировал на подсказках из группы получилась, локально проверил, работает.
1. Убираю переносы
2. Добавляю вместо /n " " пробел
3. Удаляю спецсимволы
4. Удаляю стоп-слова
Пока на полном обьеме не проверял, но очевидно что это будет чище чем было)))

источник

07:59пожаловаться #5

Rufina Rafikova in Natural Language Processing

Всем привет!

Нейронные сети показывают очень хорошие результаты практически во всех приложениях машинного обучения. Однако нейронные сети часто делают очень уверенные прогнозы для данных, которые лежат вне выборки, или данных на границе между классами. Во многих приложениях это неприемлемо, и поэтому способность оценить степень уверенности в предсказании является крайне важной и востребованной. Однако оценка неопределенности для нейронных сетей является нетривиальной задачей, и существующие подходы демонстрируют не очень высокое качество и зачастую требуют значительных вычислительных ресурсов.

На очередном научно-техническом вебинаре, который проводит НТР совместно с Высшей IT-школой ТГУ, Максим Панов из Сколтеха расскажет о существующих подходах к оценке неопределенности, включая методы калибровки моделей, методы построения ансамблей и байесовские нейронные сети. Особое внимание будет уделено современным численно эффективным подходам на основе одной нейронной сети, не требующим построения ансамбля и существенного изменения процедуры обучения.

Когда: 7 декабря 2021, 12:00 MCK
Спикер: Максим Панов, Сколтех, Москва, Россия
Тема: Оценка неопределенности: может ли ваша нейронная сеть оценить степень уверенность в своих прогнозах?
Где: Zoom. Ссылка на регистрацию: https://ntrlab.zoom.us/webinar/register/2816215991698/WN_hf0e_NuJTj66rPqMN86IhQ

Zoom Video Communications

Welcome! You are invited to join a webinar: Оценка неопределенности: может ли ваша нейронная сеть оценить степень уверенность в своих прогнозах?. After registering, you will receive a confirmation email about joining the webinar.

Спикер: Максим Панов, Сколтех, Москва, Россия

источник

08:39пожаловаться #6

B K in Natural Language Processing

Переслано от B K

I want to trigger this pipeline on merge from development.

источник

09:11пожаловаться #7

Ilya Kalinin in Natural Language Processing

Я в аналогичной задаче заменял не на пробел, а на уникальную последовательность из пары знаков - чтобы потом знать, где кончается строка.

источник

09:30пожаловаться #8

Alex Bell in Natural Language Processing

👍

источник

09:33пожаловаться #9

Futorio Franklin in Natural Language Processing

Эх, жаль, что в рабочее время

источник

09:51пожаловаться #10

Rufina Rafikova in Natural Language Processing

Будет запись)

источник

09:52пожаловаться #11

Andrey in Natural Language Processing

если в бочку меда добавить ложку дёгтя.. Сколтех, это хорошо.

источник

10:14пожаловаться #12

Toemik Mnemonic in Natural Language Processing

Ребят, никто не знает как отключить в токенайзере Spacy выделение отдельного токена(префикса) если перед строкой стоит не альфабетик? По умолчанию nlp("$Привет") имеет два токена [$, Привет] (мощность 2). нами ожидается получение одного токена в подобных ситуациях [Привет] (мощность 1)

источник

12:02пожаловаться #13

Mark Baushenko in Natural Language Processing

Всем привет, какие есть русские language model для sentence2sentence ?

источник

12:19пожаловаться #14

David Dale in Natural Language Processing

Привет!
Проще всего пофильтровать каталог huggingface по языку и типу модели 🙃
https://huggingface.co/models?language=ru&pipeline_tag=text2text-generation&sort=likes

источник

12:29пожаловаться #15

Mark Baushenko in Natural Language Processing

спасибо, не знал что так можно. Но вопрос остается актуальным, хотелось бы услышать фидбек использования разных моделей

источник

12:30пожаловаться #16

Konstantin Shitkov in Natural Language Processing

конкретизируй: какая задача, данные, ресурсы?

источник

12:34пожаловаться #17

Mark Baushenko in Natural Language Processing

задача: дано tweet и label(toxic/no toxic). Нужно по заданному твиту сгенерировать reply с соответствующим лейблом
данные: неограниченное количество (ограничено количеством всех tweet-reply на русском в твитере)
ресурсы: 2x NVIDIA quadro RTX 6000 (48GB)

источник

12:36пожаловаться #18

dePuff in Natural Language Processing

Любой T5, который лезет в видеокарточку, 40 строк кода, учим - смотрим, что получилось, переделываем датасет )

источник

12:38пожаловаться #19

Mark Baushenko in Natural Language Processing

воможно глупый вопрос, но почему например не GPT или Bert?

источник

12:38пожаловаться #20