Телеграмм чат группы natural_language_processing страница 603

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1418 membersпожаловаться на группу

2020 February 24

SP

Sebastian Pereira in Natural Language Processing

Коллеги, у меня есть csv c кучей Bert эмбедингов предложений полученных ruBERT. Я хочу кластеризовать их на группы по «контекстуальной близости», как вы думаете, стандартная kmeans здесь поможет?

источник

16:46пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Коллеги, у меня есть csv c кучей Bert эмбедингов предложений полученных ruBERT. Я хочу кластеризовать их на группы по «контекстуальной близости», как вы думаете, стандартная kmeans здесь поможет?

они анизотропны, в отличие от word2vec-овских, но как-то они должны разделиться, да.

источник

16:47пожаловаться #2

SP

Sebastian Pereira in Natural Language Processing

они анизотропны, в отличие от word2vec-овских, но как-то они должны разделиться, да.

Эмбедингов предложений, поправка, не слов.

источник

16:48пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Эмбедингов предложений, поправка, не слов.

они тоже анизотропны...

источник

16:48пожаловаться #4

SP

Sebastian Pereira in Natural Language Processing

Я думаю, насколько это вообще осмысленная процедура

источник

16:48пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Я думаю, насколько это вообще осмысленная процедура

кластеризация эмбеддингов — процедура осмысленная, просто с анизотропией у тебя нет гарантии, что кластеры будут желаемого размера.

источник

16:49пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Я думаю, насколько это вообще осмысленная процедура

How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings
https://arxiv.org/abs/1909.00512

источник

16:54пожаловаться #7

SP

Sebastian Pereira in Natural Language Processing

How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings
https://arxiv.org/abs/1909.00512

Ого, спасибо огромное

источник

16:55пожаловаться #8

2020 February 25

ck

cnstntn kndrtv in Natural Language Processing

Привет, коллеги. Дайте совет пожалуйста. Нужно с кем-то обсудить, а не с кем.
Есть задача классификации текстов. Около 250 классов.
Тексты - звонки в колл центр.
Пробовал тюненный Elmo, Bert. Качество около 90%, но на древнем ЦПУ работают слишком медленно.
Качество возможно даже выше, так как у классов иерархическая структура и отличия в подклассах влияют на метрику, но на практике не сильно важны.
Но иерархический классификатор не вариант - медленно.
Важна скорость работы. Для примера Elmo выдает 1 ответ в секунду, а нужно 5-10 в секунду.
Сейчас рабочий вариант - FastText + логистическая регрессия. Около 85% accuracy. Приемлемо но маловато.
Использовал изначально FT так как текстов было мало. Сейчас спустя год, предположив что "видели всё", а датасет подрос с 100тыс до 2 млн примеров - можно заменить FT на TF-IDF. И тфидф, естественно, даёт точность лучше.
Но в данных много всяких адресов, телефонных номеров и прочего подобного - в словарь это записывать нет смысла.
Есть идея заменить эти токнны на теги NER. Но каким-то супербыстрым NERом.
А может вместо TF-IDF натренить FT на этом корпусе?
Или давить на "дальше только Elmo, Bert и т.п.,давайте раскошеливаться на ГПУ, или выдумывать кластера, очереди и прочее чтобы ускорить работу"?

Конечно нужно пробовать разные варианты. Но пока выдался день вдали от компьютера - можно планировать эксперимент.
Что думаете? Куда ещё посмотреть?

источник

12:09пожаловаться #9

VG

Vadim Gudkov in Natural Language Processing

Попробуй cnn. Как то ты резко с бейзлайн решений на трансформеры скаканул

источник

12:15пожаловаться #10

ck

cnstntn kndrtv in Natural Language Processing

Да, cnn пробовал. Над Elmo. 3 слоя с 1, 2, 3 окном. Хорошо, но медленно.

источник

12:19пожаловаться #11

D(

David (ddale) Dale in Natural Language Processing

Да, cnn пробовал. Над Elmo. 3 слоя с 1, 2, 3 окном. Хорошо, но медленно.

Ой, cnn над rnn это очень странно. Попробуй над ft, или над ещё каким-нибудь статическими (в смысле, не-контекстными) эмбеддингами. Так должно быть гораздо гораздо быстрее.

источник

12:20пожаловаться #12

D(

David (ddale) Dale in Natural Language Processing

И да, супербыстрый NER - это хорошая фича. У нас на классификации интентов докидывает заметно)
Но чтобы он был супербыстрым, это должен быть тупой матчинг строк регулярками/словарём/несложной грамматикой. Никаких нейронок! Майнишь словарь, компилируешь его, и всё начинает летать. Можно такие фичи в CNN (или другую сетку) вместе со словными эмбеддингами класть, сконкатенировав либо сложив эмбеддинги.

источник

12:23пожаловаться #13

ck

cnstntn kndrtv in Natural Language Processing

Спасибо. Попробую. Год назад это было... Может забыл чего.
Процессор медленный. Та же логистическая на деле работает не идеально быстро. Но тут уже сложно что-то быстрее придумать.

источник

12:24пожаловаться #14

ck

cnstntn kndrtv in Natural Language Processing

David (ddale) Dale

И да, супербыстрый NER - это хорошая фича. У нас на классификации интентов докидывает заметно)
Но чтобы он был супербыстрым, это должен быть тупой матчинг строк регулярками/словарём/несложной грамматикой. Никаких нейронок! Майнишь словарь, компилируешь его, и всё начинает летать. Можно такие фичи в CNN (или другую сетку) вместе со словными эмбеддингами класть, сконкатенировав либо сложив эмбеддинги.

Супербыстрый и точный( Natasha наверное и Yargy

источник

12:25пожаловаться #15

ck

cnstntn kndrtv in Natural Language Processing

Если натренировать FastText без предобработки NERом - он же для, например, телефонного номера запомнит, что это последовательность цифр и сделает их "близкими".
Но с другой стороны выучит какую-нибудь неожиданную зависимость цели от цифр в телефоне. Что добавит больше шума.

источник

12:33пожаловаться #16

D(

David (ddale) Dale in Natural Language Processing

Если натренировать FastText без предобработки NERом - он же для, например, телефонного номера запомнит, что это последовательность цифр и сделает их "близкими".
Но с другой стороны выучит какую-нибудь неожиданную зависимость цели от цифр в телефоне. Что добавит больше шума.

Ну зато и ожиданную может выучить. Например, научится отличать городские номера от сотовых))
Заранее ты знать это не можешь, поэтому handcrafted фичи в дополнение к fastText'у точно не повредят.

источник

12:35пожаловаться #17

ВГ

Вадим Гришкевич in Natural Language Processing

А кто нибудь работол со звуком? Есть библиотеки для обработки звуковых сигналов?

источник

12:38пожаловаться #18

ck

cnstntn kndrtv in Natural Language Processing

@speech_recognition_ru
Там должно быть больше информации

источник

12:38пожаловаться #19

ВГ

Вадим Гришкевич in Natural Language Processing

Спасибо!

источник

12:39пожаловаться #20