Вопрос интересный про выделение фактов. Что вообще считать за факт: либо в терминах rdf - триплет, либо отношение из синтаксического дерева, которое тоже похоже на триплет.
А вот вопрос. Я хочу чтобы у меня фразы делились на интенты с дополнительными параметрами. То есть Пинг -> intent=ping Тыц -> intent=ping Привет -> intent=ping, extra=greeting Доброе утро -> intent=ping, extra=greeting,morning Соответственно по интентам я могу натренить. А вот экстра как доставать?
А вот вопрос. Я хочу чтобы у меня фразы делились на интенты с дополнительными параметрами. То есть Пинг -> intent=ping Тыц -> intent=ping Привет -> intent=ping, extra=greeting Доброе утро -> intent=ping, extra=greeting,morning Соответственно по интентам я могу натренить. А вот экстра как доставать?
не, я думаю flair обучить. Вопрос в том, как это правильно разметить. Потому что intent это label, а вот дополнительное это куда? Можно обучить две модели - одна будет доставать интент, а вторая возможно что-то дополнительное.
не, я думаю flair обучить. Вопрос в том, как это правильно разметить. Потому что intent это label, а вот дополнительное это куда? Можно обучить две модели - одна будет доставать интент, а вторая возможно что-то дополнительное.
NER тоже самое, просто классы не имена а время, например.
Здравствуйте, подскажите пожалуйста куда капать в следующем вопросе. Есть узко специфичная выборка статей размеченная, но она маленькая, 500 статей. Нужно определять один из трех лейблов. Буду признателен за советы. Сделал fasttext vectors + lstm Но точность 0.66 на тестовой выборке
Может быть вместо fasttext - tfidf - так будет учтена специфика корпуса, или взвесить ft на tfidf - так получишь и преимущества большого ft и специфику учтешь. У меня ещё хорошо сработал дообученный (но это долго,) Elmo + cnn.
Может быть вместо fasttext - tfidf - так будет учтена специфика корпуса, или взвесить ft на tfidf - так получишь и преимущества большого ft и специфику учтешь. У меня ещё хорошо сработал дообученный (но это долго,) Elmo + cnn.
Здравствуйте, подскажите пожалуйста куда капать в следующем вопросе. Есть узко специфичная выборка статей размеченная, но она маленькая, 500 статей. Нужно определять один из трех лейблов. Буду признателен за советы. Сделал fasttext vectors + lstm Но точность 0.66 на тестовой выборке
А какую точность дает классический TF-IDF после фильтрации словаря (хотя бы выкинуть 50% самых частых и слова которые встрачались меньше 5 раз)?
Всем привет Столкнулся с такой задачей. Имеется некоторое предложение. За ним следует другое, и нужно определить: является следующее просто пересказом предыдущего, либо же это "продолжение истории" Как понимаю, первое — это задача paraphrase identification. А второе? И чем лучше решать? Из того, что здесь видел — flair и LASER