Size: a a a

Natural Language Processing

2021 November 29

A

Andrey in Natural Language Processing
я из того постулата исхожу, что тексты отражают какое-то положение вещей. дело не в сложности моделей.
источник

A

Andrey in Natural Language Processing
спасибо! да, кейс. для тех же копирайтеров. кстати все жду когда выйдет wordcraft. самому писать руки не доходят
источник

o

oldysty in Natural Language Processing
А "king - man + woman" вообще часто бывает в w2v? Это же вроде очень специфичный пример, а в среднем сумма даже двух слов мало что дает?
источник

A

Andrey in Natural Language Processing
к тому же, пространство вложений (даже) word2vec, имеет некоторый базис, направления в которых - это некоторые вполне концептуализируемые понятия.

взаимосвязи между двумя наборами векторов могут содержать что-то осмысленное, а может и нет. предмет ресерча
источник

A

Andrey in Natural Language Processing
произвольные наверное и нет. а вот "сиреневый + жакет", "красный + пиджак" и "ситцевые штаны" думаю уже имеют семантику
источник

N

Natalia in Natural Language Processing
ну вообще вопрос интересный, конечно: во-первых, существует проблема сбалансированности тренировочного корпуса, во-вторых — каждый раз интересно, а что с омонимами, например, в итоге получается
источник

DD

David Dale in Natural Language Processing
Фишка как раз не просто в сложении слов, а в модификации вектора слова в определённом направлении. Например, направление "-man+woman" соответствует более женским словам, а направление "-краснота+красный" соответствует переходу от существительных к близким к ним по смыслу прилагательным.

А вот композиционности ("красный + пиджак" и т.п.) в word2vec как раз-таки нет.
источник

AW

Alex Wortega in Natural Language Processing
Кстати, кто то знает способы ускорения topptopk генерации?
источник

A

Andrey in Natural Language Processing
окей. надо тогда сразу какой трансформер зарядить. на рассказах Толстой и новостях до 2007. ну, я это не вполне серьезно...конечно...

но вообще действительно поищу время на поиски многообразий и связей по паре каких корпусов.
источник

DD

David Dale in Natural Language Processing
Когда-то давно придумали hierarchial softmax для этих целей, но сейчас его редко используют - зачем, если можно gpu go brrr
источник

I

Igor in Natural Language Processing
Коллеги, всем привет!
По выступлению выложили видео, https://www.youtube.com/watch?v=B4qZCE3llKk&t=959s
источник

SancheZz Мов in Natural Language Processing
источник

В

Валентин👾 in Natural Language Processing
Можно ли учить бёрт на MKL_DNN ?
источник

A

Andrey in Natural Language Processing
я не в курсе что такое композиционность, но мой пример вроде работает на navec, а это вроде glove
источник

A

Andrey in Natural Language Processing
хотя секунду... это ж не то маленько. я на автомате в cosine similarity
источник

DD

David Dale in Natural Language Processing
А, ну в этом смысле да, оно и правда работает - если складывать эмбеддинги в структурно схожих фразах, то и результат будет схожим.

А "композиционность" - это то, как лингвисты называют вычисление совокупного смысла фразы по отдельным её составляющим. И это то, что word2vec понимает плохо.
Возьмём, например, фразу "прогревание больного места". Она обозначает процесс прогревания, но если вычислить сумму векторов "прогревание+больное+место", то результат будет похож и на вектор для "больной человек", и на вектор для "место в пространстве", потому что мы никаким образом не показали, что слово "прогревание" здесь главное, а "больное место" - дополнительная, уточняющая часть.
источник

A

Andrey in Natural Language Processing
спасибо! понял теперь. аналогично, "Василий нашел замок на горе", тут вообще не разгадает.
источник

d

dePuff in Natural Language Processing
А мне приснилось, что кто-то через вектора рассказы до одной фразы уменьшал?
источник

DD

David Dale in Natural Language Processing
Не знаю 🙈. Если вспомнишь/погуглишь и поделишься ссылкой, будет интересно)
источник

A

Andrey in Natural Language Processing
bert-extractive-summarizer у меня вертится в проде)
источник