Size: a a a

Natural Language Processing

2021 October 01

RS

Roman Samarev in Natural Language Processing
Высокий порог вхождения - это Vespa.ai. Но и возможностей много
источник

N

Natalia in Natural Language Processing
а в тулзах для UD ничего нет?
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
или нужно не такое?
источник

Е

Егорка in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Coin Boy кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, n 1994, @Orzhan, @tomateit, @gislygisly
При поддержке Золота Бородача
источник

OS

Oleg Serikov in Natural Language Processing
А там наоборот не юди
источник

N

Natalia in Natural Language Processing
в смысле у тебя? в Тундре вполне себе юди лежат
источник

N

Natalia in Natural Language Processing
а, прочла неправильно :(
источник

N

Natalia in Natural Language Processing
а мб тут? https://grew.fr/
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
а, ну и Арборатор ещё, кажется: https://arboratorgrew.elizia.net/#/
источник

Eg

Elena gisly in Natural Language Processing
https://corpus-tools.org/annis/ тут в Pepper  есть импорт из CONLL
источник

AP

Arsen Plus in Natural Language Processing
Всем привет! Вопрос по поводу labse_en_ru:

В карточке модели написано, что это a truncated version of sentence-transformers/LaBSE, which is, in turn, a port of LaBSE by Google.

Выполняю код, как написано в карточке модели:

import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("cointegrated/LaBSE-en-ru")
model = AutoModel.from_pretrained("cointegrated/LaBSE-en-ru")
sentences = ["Hello World", "Привет Мир"]
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=64, return_tensors='pt')
with torch.no_grad():
   model_output = model(**encoded_input)
embeddings = model_output.pooler_output
embeddings = torch.nn.functional.normalize(embeddings)

Далее, пользуясь библиотекой sbert, делаю:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('cointegrated/LaBSE-en-ru')
sbert_embeddings = model.encode(sentences)

Далее, сравниваю получившиеся вложения:

torch.allclose(embeddings[0], torch.tensor(sbert_embeddings[0]))

Выдает False. Можете, пожалуйста, подсказать, с чем это может быть связано?
источник

SancheZz Мов in Natural Language Processing
Длина сиквенса?
источник

AP

Arsen Plus in Natural Language Processing
128 по умолчанию в sbert и 64 в куске кода из карточки модели, но Hello World-то явно укладывается в оба ограничения
источник

IS

I Sh in Natural Language Processing
В SentenceTransformer mean pooling немного по-другому считается.

Попробуйте так, как этом примере: https://huggingface.co/sberbank-ai/sbert_large_nlu_ru
источник

AP

Arsen Plus in Natural Language Processing
спасибо! Попробую
источник

SancheZz Мов in Natural Language Processing
Молодцом
источник

SancheZz Мов in Natural Language Processing
Спасибо за референс
источник