Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 October 19

dePuff in Natural Language Processing

То есть прямо пофиг откуда выход брать придётся, но хочется размерности раз и навсегда победить?

источник

18:41пожаловаться #1

Nikolay V. Shmyrev in Natural Language Processing

Для прописных букв, кстати, берт плохо учится. Там слишком много надо тренировочных данных увидеть, чтобы знать слова. Реалистично берт больше 100 мб текста не сможет отработать, много слов нужных просто не увидит никогда. Лучше на вход подавать статистику по словам с большими буквами из большого корпуса.

источник

18:43пожаловаться #2

2021 October 20

Kir L in Natural Language Processing

) у тебя какой-то явно пунктик, на самом деле у меня айкью ниже твоего пунктов на 20 но юз без проблем запускается))

источник

03:35пожаловаться #3

Kir L in Natural Language Processing

Может ты что-то особенное хочешь из него приготовить я хщ

источник

03:36пожаловаться #4

Alexander Fedorenko in Natural Language Processing

А вам в каком виде запустить?

Я MUSE использую следующим образом:

1 Сначала прогоняю через него свои тексты длиной в одно предложение - чтобы сформировать корпус для поиска

Затем используя один свой костыль

def convert_tf_embeddins_to_torch_tensor_tqdm(list_embed):
q = []
for embedding in tqdm(list_embed):
q.extend(embedding.numpy())
t_t = torch.from_numpy(np.array(q))
return t_t

чтобы использовать отсюда
from sentence_transformers import SentenceTransformer, util
util для семантического поиска (https://www.sbert.net/examples/applications/semantic-search/README.html)

а затем для поисковых запросов другой такой же
def create_query_for_search(list_sentences):
q_em = [embed(prepare_string(sentence)) for sentence in list_sentences]
return convert_tf_embeddins_to_torch_tensor(q_em)

И все работает

источник

12:09пожаловаться #5

Rodion Proskuryakov in Natural Language Processing

Не, мне нужно как вход для другой модели, считать эмбеддинги на лету

источник

12:19пожаловаться #6

Alexander Fedorenko in Natural Language Processing

ну не собирайте корпус, а делайте по одному

источник

12:21пожаловаться #7

Alexander Fedorenko in Natural Language Processing

UPD хотя по обрывкам, я скорее не совсем верно, не в полном объеме понимаю вашу проблему

источник

12:22пожаловаться #8

Rodion Proskuryakov in Natural Language Processing

Мне нужно использовать USE в онлайн-режиме в веб-сервисе, считая эмбеддинги по запросу. При этом хочется запустить это дело на торче вместо tf

источник

12:27пожаловаться #9

Anton in Natural Language Processing

Возьмите аналогичную модель из библиотеки sentence-transformers

источник

12:33пожаловаться #10

Alexander Fedorenko in Natural Language Processing

ИМХО вы просто не вникли
там все это есть)

источник

12:35пожаловаться #11

Alexander Fedorenko in Natural Language Processing

сравнивал для поиска на одних и тех же наборах SBERT и MUSE - MUSE показывал гораздо круче результат
Хоть и перебирал модели для SBERT, точность поиска MUSE была выше

источник

12:38пожаловаться #12

Alexander Fedorenko in Natural Language Processing

Это если сравнивать предобученные - без файнтюнига

источник

12:39пожаловаться #13

Alexander Fedorenko in Natural Language Processing

не исключаю, что есть наборы, на который результат может быть обратным
но у меня таких наборов не было

источник

12:42пожаловаться #14

Rodion Proskuryakov in Natural Language Processing

Вы же не знаете мои вводные целиком, MUSE и USE - совершенно разные модели