Size: a a a

Natural Language Processing

2021 May 17

AA

Alexander Aleshin in Natural Language Processing
источник

OG

Olga Gonch in Natural Language Processing
Коллеги, добрый день! Использую Nltk для анализа тональности текстов. Вопрос, как загружать данные для обучения частями?
источник

YB

Yuri Baburov in Natural Language Processing
в программах связи борьба всегда идёт за "последнюю милю", т.е. последний маленький кусочек от сервера до абонента.
новые сервисы предоставляют более хороший интерфейс абоненту, поэтому их и выбирают.
при этом возможности, если их так и воспринимать как "то, что возможно сделать с помощью Х", а не как "то, что удобно делать с помощью Х" редко возрастают, и часто действительно в угоду хорошему интерфейсу плохо или даже не идеально реализуемые возможности вырезают.
можно привести много примеров, но приведу хоть и оффтопик в этой группе, но полезный для маководов кейс
https://www.iphones.ru/iNotes/kak-vklyuchit-kodeki-aac-i-aptx-dlya-bluetooth-na-mac-05-14-2021
оказывается, из-за неидеальной реализации aptx среди наушников, на маке (но не на iphone) их поддержка не была включена по-умолчанию. эппл предпочла вообще не включить фичу, чем получить иногда "meh, оно не работает"
источник

VM

Victor Maslov in Natural Language Processing
> новые сервисы предоставляют более хороший интерфейс абоненту, поэтому их и выбирают

никто не "выбирал", 99% пользователей дискорда никогда не видели IRC -- они стали им пользоваться потому, что все рекламные пространства были им заполнены, а про IRC и Teamspeak им никто не рассказал

так происходит с любой технологией
популярность определяется кол-вом средств, вложенных в рекламу, а не реальными преимуществами
источник

IK

Irina Krotova in Natural Language Processing
В контексте того, как юзеры в среднем определяются между весёлыми стикерами и передачей своей данных куда попало при выборе того же мессенджера, не могу не вспомнить: https://en.wikipedia.org/wiki/Dancing_pigs
источник

NM

Nick Mikhailovsky in Natural Language Processing
Предыдущий вебинар с Дмитрием Ветровым (НИУ ВШЭ) собрал у нас рекордную аудиторию (кто-то даже не попал в онлайн из-за ограничения в 100 человек), и недаром: он и как выступающий очень ярок, и результаты рассказывал очень интересные. Надеемся, что завтрашний (18 мая, 14.00 MSK) научно-технический вебинар НТР и Высшей ИТ-школы ТГУ с Дмитрием будет так же интересен.
Вот как он сам его описывает: "Во второй части доклада мы поговорим о том, что может являться причиной разрыва между предсказаниями теории и эмпирически наблюдаемыми результатами. Затем мы обсудим различные подходы к ансамблированию нейронных сетей и сравним их с точки зрения качества оценки неопределенности собственного прогноза. В заключении мы обсудим интересные закономерности, возникающие в попытке ответить на вопрос что лучше - обучить одну большую или много маленьких нейросетей."
Регистрация: https://us02web.zoom.us/webinar/register/1515989556145/WN_Y-c_qzt2TjmwJC0XsacvFA
источник

E

Elena in Natural Language Processing
привет! Такой вопрос. Может ли мне кто-нибудь дать совет, как сделать визуализацию внимания в модели PyTorch Transformer? и вообще возможно ли это? эту идею я взяла из кода к пейперу attention is all you need, но там старый пайторч и не все совпадает
источник

T

Timur in Natural Language Processing
источник

E

Elena in Natural Language Processing
а если это не берт?
источник

E

Elena in Natural Language Processing
то есть не huggingface
источник

МЕ

Максим Ермаков... in Natural Language Processing
Если не путаю, то в курсе на Stepik была визуализация внимания простой PyTorch модели - https://stepik.org/lesson/262250/step/14?unit=243133
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
вот этот, наверное
источник

E

Elena in Natural Language Processing
спасибо, посмотрю. Это близко к тому, что мне нужно
источник
2021 May 18

D

Dmitry in Natural Language Processing
Привет, кто как препроцессит данные, может какие-нибудь библиотеки есть?
Просто набор регулярок не предлагать)) они у меня уже есть
источник

t2

tonko 22 in Natural Language Processing
textacy
источник

UN

Unk Nown in Natural Language Processing
Токенизация + Нормализация:
1. nltk + pymorphy2
2. spacy 2.3.0
источник

A

Andrei in Natural Language Processing
Как лучше отсортировать предложения по вероятности встречания в языке?

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import numpy as np

model = GPT2LMHeadModel.from_pretrained('sberbank-ai/rugpt3large_based_on_gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3large_based_on_gpt2')

def score(text):
   tokens_tensor = tokenizer.encode(text, add_special_tokens=False, return_tensors='pt')
   loss=model(tokens_tensor, labels=tokens_tensor)[0]
   return np.exp(loss.cpu().detach().numpy())

score('Привет, мир!')  # 38.270206
score('Привт ммыр') # 1350.5159
score('Привет мир')  # 81707.08

Кажется логичным вот так достать из gpt. Но не очень нравятся результаты.
источник

K

Ksenia in Natural Language Processing
Всем привет, вопрос по торчу. Мне надо заморозить часть embedding layer, чтоб индексы определенных слов не тренировались, когда тренирую модель. В интернете советуют поделить embedding layer на две части, тренируемые и не тренируемые индексы, это невозможно сделать в моем случае, стандартная имплементация с одним слоем (fairseq). Второй вариант — обнулить градиенты перед backward pass для этих индексов, но мне пишет торч, что это не leaf Tensor, и его градиенты (.grad) недоступны, не могу ни обнулить ни извлечь
источник

K

Ksenia in Natural Language Processing
Что можно сделать в этом случае? Я уже всю голову сломала, а в интернете нет больше советов :(
источник