Телеграмм чат группы natural_language

🔫 Coin Boy кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, n 1994, @Orzhan, @tomateit, @gislygisly
При поддержке Золота Бородача

источник

13:47пожаловаться #6

Oleg Serikov in Natural Language Processing

А там наоборот не юди

источник

13:59пожаловаться #7

Natalia in Natural Language Processing

в смысле у тебя? в Тундре вполне себе юди лежат

источник

14:00пожаловаться #8

Natalia in Natural Language Processing

а, прочла неправильно :(

источник

14:00пожаловаться #9

Natalia in Natural Language Processing

а мб тут? https://grew.fr/

источник

14:02пожаловаться #10

Natalia in Natural Language Processing

https://grew.fr/usage/python/

источник

14:03пожаловаться #11

Natalia in Natural Language Processing

а, ну и Арборатор ещё, кажется: https://arboratorgrew.elizia.net/#/

arboratorgrew.elizia.net

Arborator-Grew

Quasar Vue Frontend for Arborator-Grew

источник

14:03пожаловаться #12

Elena gisly in Natural Language Processing

https://corpus-tools.org/annis/ тут в Pepper есть импорт из CONLL

corpus-tools.org

ANNIS (corpus-tools.org)

ANNIS is an open source, cross platform (Linux, Mac, Windows), web browser-based search and visualization architecture for complex multi-layer linguistic corpora with diverse types of annotation.

источник

14:05пожаловаться #13

Arsen Plus in Natural Language Processing

Всем привет! Вопрос по поводу labse_en_ru:

В карточке модели написано, что это a truncated version of sentence-transformers/LaBSE, which is, in turn, a port of LaBSE by Google.

Выполняю код, как написано в карточке модели:

import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("cointegrated/LaBSE-en-ru")
model = AutoModel.from_pretrained("cointegrated/LaBSE-en-ru")
sentences = ["Hello World", "Привет Мир"]
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=64, return_tensors='pt')
with torch.no_grad():
    model_output = model(**encoded_input)
embeddings = model_output.pooler_output
embeddings = torch.nn.functional.normalize(embeddings)

Далее, пользуясь библиотекой sbert, делаю:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('cointegrated/LaBSE-en-ru')
sbert_embeddings = model.encode(sentences)

Далее, сравниваю получившиеся вложения:

torch.allclose(embeddings[0], torch.tensor(sbert_embeddings[0]))

Выдает False. Можете, пожалуйста, подсказать, с чем это может быть связано?

источник

15:43пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Длина сиквенса?

источник

15:46пожаловаться #15

Arsen Plus in Natural Language Processing

128 по умолчанию в sbert и 64 в куске кода из карточки модели, но Hello World-то явно укладывается в оба ограничения

источник

15:55пожаловаться #16

I Sh in Natural Language Processing

В SentenceTransformer mean pooling немного по-другому считается.

Попробуйте так, как этом примере: https://huggingface.co/sberbank-ai/sbert_large_nlu_ru

huggingface.co

sberbank-ai/sbert_large_nlu_ru · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.