Size: a a a

Natural Language Processing

2020 February 13

D(

David (ddale) Dale in Natural Language Processing
Alexander Kukushkin
Угу, принимается. Мне просто не приходится работать с опечатками.  В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например,  с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn
В ft близкими оказываются слова, близкие и семантически, и морфологически - вперемешку (пропорции, возможно, зависят от ширины окна и других параметров обучения).
Если однокоренные слова не нужны, их можно из соседей стеммером отфильтровать. Или, скажем, оставить только слова с такими же морфологическими характеристиками, как и у запроса.
В общем, эта проблема, во-первых, излечимая (с помощью костылей, но всё же).
А во-вторых, она и другим методам извлечения эмбеддингов присуща, просто ft от неё страдает больше остальных.
В общем, пока что лично меня ft всем устраивает, кроме размера)
источник

V

Vlad in Natural Language Processing
а в bert есть такая проблема?
источник

D(

David (ddale) Dale in Natural Language Processing
Vlad
а в bert есть такая проблема?
Для редких слов (которых нет в словаре и которые распадаются на subwords) в берте должно быть всё ещё хуже - у них нет единого эмбеддинга на слово.
А эмбеддинг bpe-токена отражает всё вперемешку - и его морфологическую роль, и семантику, и, возможно, синтаксическую роль слова, в которое он входит.
источник

V

Vlad in Natural Language Processing
Ничего себе. Я ещё не разбирался с ним, по этому интересен такой вопрос: в задачах классификации текста и извлечения сущностей лучше bert или fasttext использовать? В тестовых реализациях я использовал word2vec, но насколько я понимаю - он уже устарел
источник

D(

David (ddale) Dale in Natural Language Processing
Vlad
Ничего себе. Я ещё не разбирался с ним, по этому интересен такой вопрос: в задачах классификации текста и извлечения сущностей лучше bert или fasttext использовать? В тестовых реализациях я использовал word2vec, но насколько я понимаю - он уже устарел
Для ner лучше берт, т.к. у него эмбеддинги контекстно-зависимые, и это может быть критично.
Для классификации - возможно, берт тоже лучше, но его тяжеловато файн-тюнить, и лично у меня не получилось из него выжать лучший перформанс на классификации (на русском языке), чем у cnn поверх ft-эмбеддингов.
источник

A

Alex in Natural Language Processing
Kir
Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(
я тоже какое то время мучился - нужно было написать предварительную диагностику как бы доктор спрашивает пациента - в итоге был написан странный гибрид где куски стандартных опросов на стэйт нашинах перемешивались с блоками диагностики - где вопросы задавалить не по сценарию и на выходе был болен/не болен
источник

A

Alex in Natural Language Processing
и дальше снова кусок стандартных разговоров на стэйт машине
источник

A

Alex in Natural Language Processing
ну и про dialog flow ты конечно знаешь…
источник

V

Vlad in Natural Language Processing
David (ddale) Dale
Для ner лучше берт, т.к. у него эмбеддинги контекстно-зависимые, и это может быть критично.
Для классификации - возможно, берт тоже лучше, но его тяжеловато файн-тюнить, и лично у меня не получилось из него выжать лучший перформанс на классификации (на русском языке), чем у cnn поверх ft-эмбеддингов.
понял, спасибо)
источник

A

Alex in Natural Language Processing
Kir
нет, мы похожую задачу начинали решать, потом у нас ее забрали.
пробовали разные NER подходы, начали с правил Ярги, т.к. было известно заранее что-то.
у нас была потребность извлекать оборудование и то, что с ним случилось.
насколько мне известно, далее ребята разметили все под spacy и с помощью него доставали оборудование и происшествия.
спасибо - буду думать над этими не полностью понятными словами ))
источник
2020 February 14

D

Dmitry in Natural Language Processing
Мы используем ft для классификации и близких по значению слов, синонимии. Вполне устраивает.
источник

Ю

Юра Незнанов in Natural Language Processing
Ребят. Подскажите годный способ выявления ключевых слов в тексте. Просто подсчет не канает. Нужно использовать нейронку (задание такое). Обучать по сути не на чем. Что делать? Нужно для каждого текста выделять 10 ключ слов. Тексты на русском. 3-20 страниц
источник

D

Dmitry in Natural Language Processing
LSA/LDA не пойдёт? Topic modelling
источник

NS

Nikolay Shmyrev in Natural Language Processing
Юра Незнанов
Ребят. Подскажите годный способ выявления ключевых слов в тексте. Просто подсчет не канает. Нужно использовать нейронку (задание такое). Обучать по сути не на чем. Что делать? Нужно для каждого текста выделять 10 ключ слов. Тексты на русском. 3-20 страниц
https://github.com/romovpa/habrahabr-dataset скачать, там для каждой статьи есть ключевики
источник

NK

Nikolay Karelin in Natural Language Processing
TextRank до сих пор хороший бейзлайн. Если нужно по коллекции текстов (т.е. чем оддин текст выделяется из всей коллекции - TF-IDF. Дальше - нейронки (NER, ...)
источник

ИС

Иван Стразов in Natural Language Processing
Добрый день. Подскажите, есть ли готовые решения (в либах) по определению эмоциональной окраски сообщений клиентов (язык - русский, неграмотный)? Или с чего стоит к этому подступиться?
источник

Г

Георгий in Natural Language Processing
Гуглить sentiment analysis 
источник

Г

Георгий in Natural Language Processing
Самое простое решение tf-idf + какая-нибудь классификация.
источник

Г

Георгий in Natural Language Processing
Только разметка нужна будет на данных, но это скорее всего вручную сделать можно.
источник

Г

Георгий in Natural Language Processing
Есть датасеты с отзывами, но это не совсем то, я так понимаю.
источник