Size: a a a

Natural Language Processing

2019 December 14

I

Ilya in Natural Language Processing
Вопрос интересный про выделение фактов. Что вообще считать за факт:
либо в терминах rdf - триплет, либо отношение из синтаксического дерева, которое тоже похоже на триплет.

Вот по теме, интересная статья:
https://arxiv.org/abs/1906.05317
источник

A

Aragaer in Natural Language Processing
А вот вопрос. Я хочу чтобы у меня фразы делились на интенты с дополнительными параметрами. То есть
Пинг -> intent=ping
Тыц -> intent=ping
Привет -> intent=ping, extra=greeting
Доброе утро -> intent=ping, extra=greeting,morning
Соответственно по интентам я могу натренить. А вот экстра как доставать?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Aragaer
А вот вопрос. Я хочу чтобы у меня фразы делились на интенты с дополнительными параметрами. То есть
Пинг -> intent=ping
Тыц -> intent=ping
Привет -> intent=ping, extra=greeting
Доброе утро -> intent=ping, extra=greeting,morning
Соответственно по интентам я могу натренить. А вот экстра как доставать?
источник

A

Aragaer in Natural Language Processing
не, я думаю flair обучить. Вопрос в том, как это правильно разметить. Потому что intent это label, а вот дополнительное это куда?
Можно обучить две модели - одна будет доставать интент, а вторая возможно что-то дополнительное.
источник

NS

Nikolay Shmyrev in Natural Language Processing
Aragaer
не, я думаю flair обучить. Вопрос в том, как это правильно разметить. Потому что intent это label, а вот дополнительное это куда?
Можно обучить две модели - одна будет доставать интент, а вторая возможно что-то дополнительное.
NER тоже самое, просто классы не имена а время, например.
источник

NS

Nikolay Shmyrev in Natural Language Processing
источник

A

Aragaer in Natural Language Processing
ага, буду думать, спасибо
источник

A

Aragaer in Natural Language Processing
то есть получается две модели - одна для классификации, вторая для ner.
источник

DP

Dmitry Popov in Natural Language Processing
Здравствуйте, подскажите пожалуйста куда капать в следующем вопросе. Есть узко специфичная выборка статей размеченная, но она маленькая, 500 статей. Нужно определять один из трех лейблов. Буду признателен за советы.  Сделал fasttext vectors + lstm   Но точность 0.66 на тестовой выборке
источник

ck

cnstntn kndrtv in Natural Language Processing
Может быть вместо fasttext - tfidf - так будет учтена специфика корпуса, или взвесить ft на tfidf - так  получишь и преимущества большого ft и специфику учтешь.
У меня ещё хорошо сработал дообученный (но это долго,) Elmo + cnn.
источник

DP

Dmitry Popov in Natural Language Processing
cnstntn kndrtv
Может быть вместо fasttext - tfidf - так будет учтена специфика корпуса, или взвесить ft на tfidf - так  получишь и преимущества большого ft и специфику учтешь.
У меня ещё хорошо сработал дообученный (но это долго,) Elmo + cnn.
Спасибо
источник

NK

Nikolay Karelin in Natural Language Processing
Dmitry Popov
Здравствуйте, подскажите пожалуйста куда капать в следующем вопросе. Есть узко специфичная выборка статей размеченная, но она маленькая, 500 статей. Нужно определять один из трех лейблов. Буду признателен за советы.  Сделал fasttext vectors + lstm   Но точность 0.66 на тестовой выборке
А какую точность дает классический TF-IDF после фильтрации словаря (хотя бы выкинуть 50% самых частых и слова которые встрачались меньше 5 раз)?
источник

DP

Dmitry Popov in Natural Language Processing
Nikolay Karelin
А какую точность дает классический TF-IDF после фильтрации словаря (хотя бы выкинуть 50% самых частых и слова которые встрачались меньше 5 раз)?
Я так не пробовал, но обязательно попробую.

Пробовал вот еще как. Был tf-idf но на двух лейблах и с линейной регрессией. Она давала точность 52-55
источник

m

mel kaye in Natural Language Processing
Nikolay Karelin
А какую точность дает классический TF-IDF после фильтрации словаря (хотя бы выкинуть 50% самых частых и слова которые встрачались меньше 5 раз)?
а зачем выкидывать?
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Karelin
А какую точность дает классический TF-IDF после фильтрации словаря (хотя бы выкинуть 50% самых частых и слова которые встрачались меньше 5 раз)?
Почти не повышает точность, емнип, просто быстрее начинает работать, но зависит от задачи
источник
2019 December 15

A

Aragaer in Natural Language Processing
спасибо за наводку на flair - получил "модель языка", классификатор и теггер в 15 мегабайт суммарно
источник

A

Aragaer in Natural Language Processing
они пока простейшие, но я думаю там можно увеличить всякое без сильно большого их увеличения по размеру
источник

V

Vlad in Natural Language Processing
А можете пожалуйста ссылку дать на flair? Я как-то упустил её
источник

A

Aragaer in Natural Language Processing
источник

AD

Alfredo Diezo in Natural Language Processing
Всем привет
Столкнулся с такой задачей. Имеется некоторое предложение. За ним следует другое, и нужно определить: является следующее просто пересказом предыдущего, либо же это "продолжение истории"
Как понимаю, первое — это задача paraphrase identification. А второе? И чем лучше решать? Из того, что здесь видел — flair и LASER
источник