Size: a a a

Natural Language Processing

2020 February 24

SP

Sebastian Pereira in Natural Language Processing
Коллеги, у меня есть csv c кучей  Bert эмбедингов  предложений  полученных ruBERT. Я хочу кластеризовать  их на группы по «контекстуальной близости», как вы думаете, стандартная kmeans здесь поможет?
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Коллеги, у меня есть csv c кучей  Bert эмбедингов  предложений  полученных ruBERT. Я хочу кластеризовать  их на группы по «контекстуальной близости», как вы думаете, стандартная kmeans здесь поможет?
они анизотропны, в отличие от word2vec-овских, но как-то они должны разделиться, да.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
они анизотропны, в отличие от word2vec-овских, но как-то они должны разделиться, да.
Эмбедингов предложений, поправка, не слов.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Эмбедингов предложений, поправка, не слов.
они тоже анизотропны...
источник

SP

Sebastian Pereira in Natural Language Processing
Я думаю, насколько это вообще осмысленная процедура
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Я думаю, насколько это вообще осмысленная процедура
кластеризация эмбеддингов — процедура осмысленная, просто с анизотропией у тебя нет гарантии, что кластеры будут желаемого размера.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Я думаю, насколько это вообще осмысленная процедура
How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings
https://arxiv.org/abs/1909.00512
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings
https://arxiv.org/abs/1909.00512
Ого, спасибо огромное
источник
2020 February 25

ck

cnstntn kndrtv in Natural Language Processing
Привет, коллеги. Дайте совет пожалуйста. Нужно с кем-то обсудить, а не с кем.
Есть задача классификации текстов. Около 250 классов.
Тексты -  звонки в колл центр.
Пробовал тюненный Elmo, Bert. Качество около 90%, но на древнем ЦПУ работают слишком медленно.
Качество возможно даже выше, так как у классов иерархическая структура и отличия в подклассах влияют на метрику, но на практике не сильно важны.
Но иерархический классификатор не вариант - медленно.
Важна скорость работы. Для примера Elmo выдает 1 ответ в секунду, а нужно 5-10 в секунду.
Сейчас рабочий вариант - FastText + логистическая регрессия. Около 85% accuracy. Приемлемо но маловато.
Использовал изначально FT так как текстов было мало. Сейчас спустя год, предположив что "видели всё", а датасет подрос с 100тыс до 2 млн примеров - можно заменить FT на TF-IDF. И тфидф, естественно, даёт точность лучше.
Но в данных много всяких адресов, телефонных номеров и прочего подобного - в словарь это записывать нет смысла.
Есть идея заменить эти токнны на теги NER. Но каким-то супербыстрым NERом.
А может вместо TF-IDF натренить FT на этом корпусе?
Или давить на  "дальше только Elmo, Bert и т.п.,давайте раскошеливаться на ГПУ, или выдумывать кластера, очереди и прочее чтобы ускорить работу"?

Конечно нужно пробовать разные варианты. Но пока выдался день вдали от компьютера - можно планировать эксперимент.
Что думаете? Куда ещё посмотреть?
источник

VG

Vadim Gudkov in Natural Language Processing
Попробуй cnn. Как то ты резко с бейзлайн решений на трансформеры скаканул
источник

ck

cnstntn kndrtv in Natural Language Processing
Да, cnn пробовал. Над Elmo. 3 слоя с 1, 2, 3 окном. Хорошо, но медленно.
источник

D(

David (ddale) Dale in Natural Language Processing
cnstntn kndrtv
Да, cnn пробовал. Над Elmo. 3 слоя с 1, 2, 3 окном. Хорошо, но медленно.
Ой, cnn над rnn это очень странно. Попробуй над ft, или над ещё каким-нибудь статическими (в смысле, не-контекстными) эмбеддингами. Так должно быть гораздо гораздо быстрее.
источник

D(

David (ddale) Dale in Natural Language Processing
И да, супербыстрый NER - это хорошая фича. У нас на классификации интентов докидывает заметно)
Но чтобы он был супербыстрым, это должен быть тупой матчинг строк регулярками/словарём/несложной грамматикой. Никаких нейронок! Майнишь словарь, компилируешь его, и всё начинает летать. Можно такие фичи в CNN (или другую сетку) вместе со словными эмбеддингами класть, сконкатенировав либо сложив эмбеддинги.
источник

ck

cnstntn kndrtv in Natural Language Processing
Спасибо. Попробую. Год назад это было... Может забыл чего.
Процессор медленный. Та же логистическая на деле работает не идеально быстро. Но тут уже сложно что-то быстрее придумать.
источник

ck

cnstntn kndrtv in Natural Language Processing
David (ddale) Dale
И да, супербыстрый NER - это хорошая фича. У нас на классификации интентов докидывает заметно)
Но чтобы он был супербыстрым, это должен быть тупой матчинг строк регулярками/словарём/несложной грамматикой. Никаких нейронок! Майнишь словарь, компилируешь его, и всё начинает летать. Можно такие фичи в CNN (или другую сетку) вместе со словными эмбеддингами класть, сконкатенировав либо сложив эмбеддинги.
Супербыстрый и точный( Natasha наверное и Yargy
источник

ck

cnstntn kndrtv in Natural Language Processing
Если натренировать FastText без предобработки NERом - он же для, например, телефонного номера запомнит, что это последовательность цифр и сделает их "близкими".
Но с другой стороны выучит какую-нибудь неожиданную зависимость цели от цифр в телефоне. Что добавит больше шума.
источник

D(

David (ddale) Dale in Natural Language Processing
cnstntn kndrtv
Если натренировать FastText без предобработки NERом - он же для, например, телефонного номера запомнит, что это последовательность цифр и сделает их "близкими".
Но с другой стороны выучит какую-нибудь неожиданную зависимость цели от цифр в телефоне. Что добавит больше шума.
Ну зато и ожиданную может выучить. Например, научится отличать городские номера от сотовых))
Заранее ты знать это не можешь, поэтому handcrafted фичи в дополнение к fastText'у точно не повредят.
источник

ВГ

Вадим Гришкевич in Natural Language Processing
А кто нибудь работол со звуком? Есть библиотеки для обработки звуковых сигналов?
источник

ck

cnstntn kndrtv in Natural Language Processing
@speech_recognition_ru
Там должно быть больше информации
источник

ВГ

Вадим Гришкевич in Natural Language Processing
Спасибо!
источник