Телеграмм чат группы natural_language

2020 January 19

RI

Roman Inflianskas in Natural Language Processing

cnstntn kndrtv

@rom_inf спасибо, интересно, не знал про plumbum

Пожалуйста!) Он правда не очень активно развивается, к сожалению. Но особых проблем с ним я неприпомню.

источник

17:33пожаловаться #1

VB

Vladimir Bougay in Natural Language Processing

Alfredo Diezo

Всем привет
Мб кто подскажет, как выходить из такой ситуации. В проекте есть 2 функции: одна использует модель от deeppavlov, другая USE от tensorflow
Со второй удобно работать на версии tf 2.0.0. Но вот deeppavlov при запуске своей модели насильно сносить tf 2.0.0 и ставит 1.14.0

Как лучше их "совместить" в одном проекте?

USE прекрасно живет и с первым TF. Вот прямо сейчас на 1.14 сидим

источник

18:37пожаловаться #2

AD

Alfredo Diezo in Natural Language Processing

Vladimir Bougay

USE прекрасно живет и с первым TF. Вот прямо сейчас на 1.14 сидим

Да тут выяснилось, что беда не только с ним. Но всё равно спасибо

источник

20:21пожаловаться #3

М

Михаил in Natural Language Processing

cnstntn kndrtv

В DP много лишнего, имхо. Куча ненужных библиотек. Идеально их использовать для прототипа, а потом - повторять всё без их обвязки. Вроде те же TF, Sklearn.

С одной стороны, да: куча лишнего, всё громоздко и запутано (как специально...). Без reverse engineering'а не разобраться. Но с другой стороны, для NER я не видел модели, которая также хорошо отрабатывала бы на моих данных (предложения из абсолютно разных областей знаний). Я имею в виду именно multi-lang: https://demo.deeppavlov.ai/#/mu/ner , остальные, на мой взгляд, гораздо хуже. Может кто-нибудь знает стоящие аналоги на которые можно перейти?

источник

23:54пожаловаться #4

2020 January 20

AB

Arcady Balandin in Natural Language Processing

А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?

источник

10:02пожаловаться #5

FF

Futorio Franklin in Natural Language Processing

Arcady Balandin

А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?

Если препроцессить текст, то "Собачка" и "собачка" будут одинаковым словом, так что никак

источник

10:05пожаловаться #6

AB

Arcady Balandin in Natural Language Processing

источник

10:05пожаловаться #7

D(

David (ddale) Dale in Natural Language Processing

Arcady Balandin

А сейчас будет нубский вопрос. Как word2vec может работать с омонимией и полисемией?
Собачка и собачка это же два разных слова в разных областях пространства. Как их разделить?

word2vec их тупо усредняет. Чтобы разные смыслы разделить, нужен контекст и контекстные эмбеддинги, типа ELMO или BERT

источник

10:05пожаловаться #8

AB

Arcady Balandin in Natural Language Processing

Вроде что то есть но хз

источник

10:05пожаловаться #9

AB

Arcady Balandin in Natural Language Processing

David (ddale) Dale

word2vec их тупо усредняет. Чтобы разные смыслы разделить, нужен контекст и контекстные эмбеддинги, типа ELMO или BERT

Спс

источник

10:05пожаловаться #10

NK

Nikolay Karelin in Natural Language Processing

Arcady Balandin

насколько хороший подход?

источник

10:15пожаловаться #11

AB

Arcady Balandin in Natural Language Processing

Nikolay Karelin

насколько хороший подход?

Я ж сказал. Вопрос у меня нубский. Сам не знаю

источник

10:16пожаловаться #12

AB

Arcady Balandin in Natural Language Processing

И связанный вопрос. А есть ли словарь английского с выбранными из Bert или Elmo словами где конечно смыслы разделены

источник

10:17пожаловаться #13

AB

Arcady Balandin in Natural Language Processing

И ещё вопрос. А как быть с get up, let down? Это по сути цельные слова.

источник

10:17пожаловаться #14

AB

Arcady Balandin in Natural Language Processing

к примеру здесь https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#34-confirming-contextually-dependent-vectors
показано как ЗНАЯ сочетания слов типа "river bank" получить координаты этого сочетания. Однако, я-то как раз не знаю какие слова и сочетания имеются в корпусе что я натренировал. Предложения тоже имеют координаты. Но как из bert вытащить все построенные им эмбеддинги?

источник

10:37пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Arcady Balandin

к примеру здесь https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#34-confirming-contextually-dependent-vectors
показано как ЗНАЯ сочетания слов типа "river bank" получить координаты этого сочетания. Однако, я-то как раз не знаю какие слова и сочетания имеются в корпусе что я натренировал. Предложения тоже имеют координаты. Но как из bert вытащить все построенные им эмбеддинги?

Прогоняешь корпус текстов через BERT, получаешь для каждого слова множество контекстных эмбеддингов. Каждое такое множество кластеризуешь. Каждый полученный кластер - отдельное значение.

источник

10:39пожаловаться #16

AB

Arcady Balandin in Natural Language Processing

David (ddale) Dale

Прогоняешь корпус текстов через BERT, получаешь для каждого слова множество контекстных эмбеддингов. Каждое такое множество кластеризуешь. Каждый полученный кластер - отдельное значение.

а как быть с "let me down"? это скипграмма по сути. мне нужно вытащить "let down" (чтобы потом вытащить е кординаты)?

источник

10:40пожаловаться #17

D(

David (ddale) Dale in Natural Language Processing

Arcady Balandin

а как быть с "let me down"? это скипграмма по сути. мне нужно вытащить "let down" (чтобы потом вытащить е кординаты)?

Я хз.
Не будь этого "me", можно было бы склеить "let down" в один токен.
А если между частями устойчивого выражения может быть что угодно, то я вообще не уверен, что подход со словными эмбеддингами применим.
Возможно, можно залезть в атеншны BERT'а, заметить, что let и down сильно смотрят друг на друга, и на этом основании их "склеить" в какую-то цельную конструкцию. Но я сам так не делал и хорошего чужого опыта тоже не знаю.

источник

10:44пожаловаться #18

AB

Arcady Balandin in Natural Language Processing

"let me" и "me down" какие координаты по сути должны иметь? в идеале вообще никакие не должны иметь.

источник

10:46пожаловаться #19

2020 January 21

FG

Fail Gafarov in Natural Language Processing

https://learn-neural-networks.com/world-embedding-by-keras/

Learn Neural Networks

Word embedding by Keras | | Learn Neural Networks

In this blog a word embedding by using Keras Embedding layer is considered Word embeding is a class of approaches for representing words and documents using a vector representation.

источник

17:31пожаловаться #20