Size: a a a

Natural Language Processing

2020 January 19

RI

Roman Inflianskas in Natural Language Processing
cnstntn kndrtv
@rom_inf спасибо, интересно, не знал про plumbum
Пожалуйста!) Он правда не очень активно развивается, к сожалению. Но особых проблем с ним я неприпомню.
источник

VB

Vladimir Bougay in Natural Language Processing
Alfredo Diezo
Всем привет
Мб кто подскажет, как выходить из такой ситуации. В проекте есть 2 функции: одна использует модель от deeppavlov, другая USE от tensorflow
Со второй удобно работать на версии tf 2.0.0. Но вот deeppavlov при запуске своей модели насильно сносить tf 2.0.0 и ставит 1.14.0

Как лучше их "совместить" в одном проекте?
USE прекрасно живет и с первым TF. Вот прямо сейчас на 1.14 сидим
источник

AD

Alfredo Diezo in Natural Language Processing
Vladimir Bougay
USE прекрасно живет и с первым TF. Вот прямо сейчас на 1.14 сидим
Да тут выяснилось, что беда не только с ним. Но всё равно спасибо
источник

М

Михаил in Natural Language Processing
cnstntn kndrtv
В DP много лишнего, имхо. Куча ненужных библиотек. Идеально их использовать для прототипа, а потом - повторять всё без их обвязки. Вроде те же TF, Sklearn.
С одной стороны, да: куча лишнего, всё громоздко и запутано (как специально...). Без reverse engineering'а не разобраться. Но с другой стороны, для NER я не видел модели, которая также хорошо отрабатывала бы на моих данных (предложения из абсолютно разных областей знаний). Я имею в виду именно multi-lang: https://demo.deeppavlov.ai/#/mu/ner , остальные, на мой взгляд, гораздо хуже. Может кто-нибудь знает стоящие аналоги на которые можно перейти?
источник
2020 January 20

AB

Arcady Balandin in Natural Language Processing
А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?
источник

FF

Futorio Franklin in Natural Language Processing
Arcady Balandin
А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?
Если препроцессить текст,  то "Собачка" и "собачка" будут одинаковым словом, так что никак
источник

AB

Arcady Balandin in Natural Language Processing
источник

D(

David (ddale) Dale in Natural Language Processing
Arcady Balandin
А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?
word2vec их тупо усредняет. Чтобы разные смыслы разделить, нужен контекст и контекстные эмбеддинги, типа ELMO или BERT
источник

AB

Arcady Balandin in Natural Language Processing
Вроде что то есть но хз
источник

AB

Arcady Balandin in Natural Language Processing
David (ddale) Dale
word2vec их тупо усредняет. Чтобы разные смыслы разделить, нужен контекст и контекстные эмбеддинги, типа ELMO или BERT
Спс
источник

NK

Nikolay Karelin in Natural Language Processing
насколько хороший подход?
источник

AB

Arcady Balandin in Natural Language Processing
Nikolay Karelin
насколько хороший подход?
Я ж сказал. Вопрос у меня нубский. Сам не знаю
источник

AB

Arcady Balandin in Natural Language Processing
И связанный вопрос. А есть ли словарь английского с выбранными из Bert или Elmo словами где конечно смыслы разделены
источник

AB

Arcady Balandin in Natural Language Processing
И ещё вопрос. А как быть с get up, let down? Это по сути цельные слова.
источник

AB

Arcady Balandin in Natural Language Processing
к примеру здесь https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#34-confirming-contextually-dependent-vectors
показано как ЗНАЯ сочетания слов типа "river bank" получить координаты этого сочетания. Однако, я-то как раз не знаю какие слова и сочетания имеются в корпусе что я натренировал. Предложения тоже имеют координаты. Но как из bert вытащить все построенные им эмбеддинги?
источник

D(

David (ddale) Dale in Natural Language Processing
Arcady Balandin
к примеру здесь https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#34-confirming-contextually-dependent-vectors
показано как ЗНАЯ сочетания слов типа "river bank" получить координаты этого сочетания. Однако, я-то как раз не знаю какие слова и сочетания имеются в корпусе что я натренировал. Предложения тоже имеют координаты. Но как из bert вытащить все построенные им эмбеддинги?
Прогоняешь корпус текстов через BERT, получаешь для каждого слова множество контекстных эмбеддингов. Каждое такое множество кластеризуешь. Каждый полученный кластер - отдельное значение.
источник

AB

Arcady Balandin in Natural Language Processing
David (ddale) Dale
Прогоняешь корпус текстов через BERT, получаешь для каждого слова множество контекстных эмбеддингов. Каждое такое множество кластеризуешь. Каждый полученный кластер - отдельное значение.
а как быть с "let me down"? это скипграмма по сути. мне нужно вытащить "let down" (чтобы потом вытащить е кординаты)?
источник

D(

David (ddale) Dale in Natural Language Processing
Arcady Balandin
а как быть с "let me down"? это скипграмма по сути. мне нужно вытащить "let down" (чтобы потом вытащить е кординаты)?
Я хз.
Не будь этого "me", можно было бы склеить "let down" в один токен.
А если между частями устойчивого выражения может быть что угодно, то я вообще не уверен, что подход со словными эмбеддингами применим.
Возможно, можно залезть в атеншны BERT'а, заметить, что let и down сильно смотрят друг на друга, и на этом основании их "склеить" в какую-то цельную конструкцию. Но я сам так не делал и хорошего чужого опыта тоже не знаю.
источник

AB

Arcady Balandin in Natural Language Processing
"let me" и "me down" какие координаты по сути должны иметь? в идеале вообще никакие не должны иметь.
источник
2020 January 21

FG

Fail Gafarov in Natural Language Processing
источник