Size: a a a

Natural Language Processing

2021 April 13

A

Anton in Natural Language Processing
😁Ага, прям можно вычислять такие штуки.
источник

SM

Syuzanna Martirosyan in Natural Language Processing
:)
источник

FF

Futorio Franklin in Natural Language Processing
А что такое TFXMLRoBERTa ? как-то плохо гуглится
источник

FF

Futorio Franklin in Natural Language Processing
Новый трансформер на базе роберты?
источник

SM

Syuzanna Martirosyan in Natural Language Processing
это модель от Huggingface, если я не путаю ничего
источник

SM

Syuzanna Martirosyan in Natural Language Processing
ага
источник

FF

Futorio Franklin in Natural Language Processing
А это tensorflow версия xml-roberta
источник

SM

Syuzanna Martirosyan in Natural Language Processing
так точно
источник

SM

Syuzanna Martirosyan in Natural Language Processing
не знаю, совпала ли я с каким-то хакатоном, но я диплом с ней пишу. буду рада и очень благодарна, если кто-то ответит или поможет
источник

MK

Max Kuznetsov in Natural Language Processing
А это нормально что spacy_udpipe из коробки прилепляет запятые к словам при токенизации?
источник

MK

Max Kuznetsov in Natural Language Processing
И если не нормально, есть ли простой способ пофиксить?
источник

AL

Anton Lozhkov in Natural Language Processing
так только в рендере, на деле запятые отдельными токенами
источник

A

Anton in Natural Language Processing
А что значит - размеченные данные на выходе для ner?
источник

MK

Max Kuznetsov in Natural Language Processing
Спасибо!
источник

AL

Anton Lozhkov in Natural Language Processing
from transformers import XLMRobertaTokenizer, TFXLMRobertaModel
import tensorflow as tf

tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-base')
model = TFXLMRobertaModel.from_pretrained('xlm-roberta-base')
inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
outputs = model(inputs)

last_hidden_states = outputs.last_hidden_state


last_hidden_states - готовые эмбеддинги из последнего слоя роберты, дальше можно их использовать как вход для какой-нибудь модели NERа
source: https://huggingface.co/transformers/model_doc/xlmroberta.html#tfxlmrobertamodel
источник

SM

Syuzanna Martirosyan in Natural Language Processing
коряво написала, согласна, но сообщением выше прислали точно то, что мне было нужно
источник

SM

Syuzanna Martirosyan in Natural Language Processing
спасибо огромное!
источник

SM

Syuzanna Martirosyan in Natural Language Processing
нужно учиться нормально документацию читать
источник

И

Илья in Natural Language Processing
Привет. Список векторов (матрица), полученные из word2vec, я суммирую, потом подаю на классификатор. Есть ли практический смысл использовать k-means для конкатенации векторов? И как это, примерно, должно работать
источник

AL

Anton Lozhkov in Natural Language Processing
Лучше все-таки не суммировать, а усреднять. Есть смысл в усреднении векторов с tf-idf весами (see IDF-weighted word2vec), или со взвешиванием SIF. Еще можно пройтись по векторам RNNкой (+ опциональный attention) и сделать mean pooling стейтов, если ресурсы позволяют
источник