Size: a a a

Natural Language Processing

2021 October 19

d

dePuff in Natural Language Processing
То есть прямо пофиг откуда выход брать придётся, но хочется размерности раз и навсегда победить?
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Для прописных букв, кстати, берт плохо учится. Там слишком много надо тренировочных данных увидеть, чтобы знать слова. Реалистично берт больше 100 мб текста не сможет отработать, много слов нужных просто не увидит никогда. Лучше на вход подавать статистику по словам с большими буквами из большого корпуса.
источник
2021 October 20

KL

Kir L in Natural Language Processing
) у тебя какой-то явно пунктик, на самом деле у меня айкью ниже твоего пунктов на 20 но юз без проблем запускается))
источник

KL

Kir L in Natural Language Processing
Может ты что-то особенное хочешь из него приготовить я хщ
источник

AF

Alexander Fedorenko in Natural Language Processing
А вам в каком виде запустить?

Я MUSE использую следующим образом:

1 Сначала прогоняю через него свои тексты длиной в одно предложение - чтобы сформировать корпус для поиска

Затем используя один свой костыль

def convert_tf_embeddins_to_torch_tensor_tqdm(list_embed):
   q = []
   for embedding in tqdm(list_embed):
       q.extend(embedding.numpy())
   t_t = torch.from_numpy(np.array(q))
   return t_t

чтобы использовать отсюда
from sentence_transformers import SentenceTransformer, util
util для семантического поиска (https://www.sbert.net/examples/applications/semantic-search/README.html)

а затем для поисковых запросов другой такой же
def create_query_for_search(list_sentences):
   q_em = [embed(prepare_string(sentence)) for sentence in list_sentences]
   return convert_tf_embeddins_to_torch_tensor(q_em)

И все работает
источник

RP

Rodion Proskuryakov in Natural Language Processing
Не, мне нужно как вход для другой модели, считать эмбеддинги на лету
источник

AF

Alexander Fedorenko in Natural Language Processing
ну не собирайте корпус, а делайте по одному
источник

AF

Alexander Fedorenko in Natural Language Processing
UPD хотя по обрывкам, я скорее не совсем верно, не в полном объеме понимаю вашу проблему
источник

RP

Rodion Proskuryakov in Natural Language Processing
Мне нужно использовать USE в онлайн-режиме в веб-сервисе, считая эмбеддинги по запросу. При этом хочется запустить это дело на торче вместо tf
источник

A

Anton in Natural Language Processing
Возьмите аналогичную модель из библиотеки sentence-transformers
источник

AF

Alexander Fedorenko in Natural Language Processing
ИМХО вы просто не вникли
там все это есть)
источник

AF

Alexander Fedorenko in Natural Language Processing
сравнивал для поиска на одних и тех же наборах  SBERT и MUSE - MUSE показывал гораздо круче результат
Хоть и перебирал модели для SBERT, точность поиска MUSE была выше
источник

AF

Alexander Fedorenko in Natural Language Processing
Это если сравнивать предобученные - без файнтюнига
источник

AF

Alexander Fedorenko in Natural Language Processing
не исключаю, что есть наборы, на который результат может быть обратным
но у меня таких наборов не было
источник

RP

Rodion Proskuryakov in Natural Language Processing
Вы же не знаете мои вводные целиком, MUSE и USE - совершенно разные модели
источник

AF

Alexander Fedorenko in Natural Language Processing
вы спрашивали о multilingual USE, вот я о нем вам и ответил
источник

RP

Rodion Proskuryakov in Natural Language Processing
Хорошо, но я так и не понял, где мне взять реализацию для торча, в этом был вопрос
источник

A

Anton in Natural Language Processing
Третий раз вам сообщаю - такой реализации нет.
Никому нет желания (необходимости) портировать sentencepiece токенайзер из USE.
источник

SancheZz Мов in Natural Language Processing
А альтернативы не рассматриваете?
источник

RP

Rodion Proskuryakov in Natural Language Processing
Нет, к сожалению, это вопрос требований к системе
источник