Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2738 membersпожаловаться на группу

2021 May 17

Alexander Aleshin in Natural Language Processing

(2.45 Кб)

источник

07:43пожаловаться #1

Olga Gonch in Natural Language Processing

Коллеги, добрый день! Использую Nltk для анализа тональности текстов. Вопрос, как загружать данные для обучения частями?

источник

07:49пожаловаться #2

Yuri Baburov in Natural Language Processing

в программах связи борьба всегда идёт за "последнюю милю", т.е. последний маленький кусочек от сервера до абонента.
новые сервисы предоставляют более хороший интерфейс абоненту, поэтому их и выбирают.
при этом возможности, если их так и воспринимать как "то, что возможно сделать с помощью Х", а не как "то, что удобно делать с помощью Х" редко возрастают, и часто действительно в угоду хорошему интерфейсу плохо или даже не идеально реализуемые возможности вырезают.
можно привести много примеров, но приведу хоть и оффтопик в этой группе, но полезный для маководов кейс
https://www.iphones.ru/iNotes/kak-vklyuchit-kodeki-aac-i-aptx-dlya-bluetooth-na-mac-05-14-2021
оказывается, из-за неидеальной реализации aptx среди наушников, на маке (но не на iphone) их поддержка не была включена по-умолчанию. эппл предпочла вообще не включить фичу, чем получить иногда "meh, оно не работает"

iPhones.ru — Новости высоких технологий, обзоры смартфонов, презентации Apple

Как включить кодеки AAC и aptX для Bluetooth на Mac

Улучшаем качество звука на совместимых наушниках.

источник

11:03пожаловаться #3

Victor Maslov in Natural Language Processing

> новые сервисы предоставляют более хороший интерфейс абоненту, поэтому их и выбирают

никто не "выбирал", 99% пользователей дискорда никогда не видели IRC -- они стали им пользоваться потому, что все рекламные пространства были им заполнены, а про IRC и Teamspeak им никто не рассказал

так происходит с любой технологией
популярность определяется кол-вом средств, вложенных в рекламу, а не реальными преимуществами

источник

11:21пожаловаться #4

Irina Krotova in Natural Language Processing

В контексте того, как юзеры в среднем определяются между весёлыми стикерами и передачей своей данных куда попало при выборе того же мессенджера, не могу не вспомнить: https://en.wikipedia.org/wiki/Dancing_pigs

Wikipedia

Dancing pigs

In computer security, the "dancing pigs" is a term or problem that explains computer users' attitudes towards computer security. It states that users will continue to pick an amusing graphic even if they receive a warning from security software that it is potentially dangerous. In other words, users choose their primary desire features without considering the security. "Dancing pigs" is generally used by tech experts and can be found in IT articles.

источник

11:22пожаловаться #5

Nick Mikhailovsky in Natural Language Processing

Предыдущий вебинар с Дмитрием Ветровым (НИУ ВШЭ) собрал у нас рекордную аудиторию (кто-то даже не попал в онлайн из-за ограничения в 100 человек), и недаром: он и как выступающий очень ярок, и результаты рассказывал очень интересные. Надеемся, что завтрашний (18 мая, 14.00 MSK) научно-технический вебинар НТР и Высшей ИТ-школы ТГУ с Дмитрием будет так же интересен.
Вот как он сам его описывает: "Во второй части доклада мы поговорим о том, что может являться причиной разрыва между предсказаниями теории и эмпирически наблюдаемыми результатами. Затем мы обсудим различные подходы к ансамблированию нейронных сетей и сравним их с точки зрения качества оценки неопределенности собственного прогноза. В заключении мы обсудим интересные закономерности, возникающие в попытке ответить на вопрос что лучше - обучить одну большую или много маленьких нейросетей."
Регистрация: https://us02web.zoom.us/webinar/register/1515989556145/WN_Y-c_qzt2TjmwJC0XsacvFA

Zoom Video

Welcome! You are invited to join a webinar: Перспективы ансамблирования нейросетей. After registering, you will receive a confirmation email about joining the webinar.

Спикер: Дмитрий Ветров, НИУ ВШЭ, Москва, Россия

источник

14:49пожаловаться #6

Elena in Natural Language Processing

привет! Такой вопрос. Может ли мне кто-нибудь дать совет, как сделать визуализацию внимания в модели PyTorch Transformer? и вообще возможно ли это? эту идею я взяла из кода к пейперу attention is all you need, но там старый пайторч и не все совпадает

источник

15:36пожаловаться #7

Timur in Natural Language Processing

https://github.com/jessevig/bertviz

GitHub

jessevig/bertviz

Tool for visualizing attention in the Transformer model (BERT, GPT-2, Albert, XLNet, RoBERTa, CTRL, etc.) - jessevig/bertviz

источник

15:39пожаловаться #8

Elena in Natural Language Processing

а если это не берт?

источник

15:40пожаловаться #9

Elena in Natural Language Processing

то есть не huggingface

источник

15:41пожаловаться #10

МЕ

Максим Ермаков... in Natural Language Processing

Если не путаю, то в курсе на Stepik была визуализация внимания простой PyTorch модели - https://stepik.org/lesson/262250/step/14?unit=243133

Stepik: online education

Семинар: моделирование языка с помощью Transformer

источник

15:45пожаловаться #11

Natalia in Natural Language Processing

https://github.com/Samsung-IT-Academy/stepik-dl-nlp/blob/master/task5_text_transformer.ipynb

GitHub

Samsung-IT-Academy/stepik-dl-nlp

Материалы мини-курса на Stepik "Нейронные сети и обработка текста" - Samsung-IT-Academy/stepik-dl-nlp

источник

15:58пожаловаться #12

Natalia in Natural Language Processing

вот этот, наверное

источник

15:58пожаловаться #13

Elena in Natural Language Processing

спасибо, посмотрю. Это близко к тому, что мне нужно

источник

16:00пожаловаться #14

2021 May 18

Dmitry in Natural Language Processing

Привет, кто как препроцессит данные, может какие-нибудь библиотеки есть?
Просто набор регулярок не предлагать)) они у меня уже есть

источник

12:24пожаловаться #15

tonko 22 in Natural Language Processing

textacy

источник

12:25пожаловаться #16

Unk Nown in Natural Language Processing

Токенизация + Нормализация:
1. nltk + pymorphy2
2. spacy 2.3.0

источник

12:25пожаловаться #17

Andrei in Natural Language Processing

Как лучше отсортировать предложения по вероятности встречания в языке?

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import numpy as np 

model = GPT2LMHeadModel.from_pretrained('sberbank-ai/rugpt3large_based_on_gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3large_based_on_gpt2')

def score(text):
    tokens_tensor = tokenizer.encode(text, add_special_tokens=False, return_tensors='pt')
    loss=model(tokens_tensor, labels=tokens_tensor)[0]
    return np.exp(loss.cpu().detach().numpy())

score('Привет, мир!')  # 38.270206
score('Привт ммыр') # 1350.5159
score('Привет мир')  # 81707.08

Кажется логичным вот так достать из gpt. Но не очень нравятся результаты.

источник

15:04пожаловаться #18

Ksenia in Natural Language Processing

Всем привет, вопрос по торчу. Мне надо заморозить часть embedding layer, чтоб индексы определенных слов не тренировались, когда тренирую модель. В интернете советуют поделить embedding layer на две части, тренируемые и не тренируемые индексы, это невозможно сделать в моем случае, стандартная имплементация с одним слоем (fairseq). Второй вариант — обнулить градиенты перед backward pass для этих индексов, но мне пишет торч, что это не leaf Tensor, и его градиенты (.grad) недоступны, не могу ни обнулить ни извлечь

источник

15:08пожаловаться #19

Ksenia in Natural Language Processing

Что можно сделать в этом случае? Я уже всю голову сломала, а в интернете нет больше советов :(

источник

15:08пожаловаться #20