Телеграмм чат группы natural_language

Что вы использовали для классификации, быстрое? Быстрое 🚀
Supervised FastText может кто пробовал?

Futorio Franklin in Natural Language Processing

12:42пожаловаться #1

cnstntn kndrtv

Что вы использовали для классификации, быстрое? Быстрое 🚀
Supervised FastText может кто пробовал?

Я пробовал, там svm над фт ембеддингами. Работает довольно быстро на коротких сообщениях

12:53пожаловаться #2

Futorio Franklin

Я пробовал, там svm над фт ембеддингами. Работает довольно быстро на коротких сообщениях

Спасибо. Запишу в план

12:54пожаловаться #3

@cnstntn_kndrtv кажется имеет смысл посмотреть на задачу под разыми углами. Например - какое у нее время жизни и потенциал роста? Возможно имеет смысл просто купить железа и заниматься более важными задачами

12:59пожаловаться #4

С технической стороны я бы начал с профилирования - точно знать, что тормозит

13:01пожаловаться #5

Anton Kazennikov

Согласен. Прогресс в любом случае будет ограничен железом.
Количество классов будет расти, количество и разнообразие текстов - тоже.
Но тут моего желания недостаточно.

13:08пожаловаться #6

NER можно сделать быстрым. Например при использовании классических методов и линейных моделей. Вот например: https://emorynlp.github.io/nlp4j/components/named-entity-recognition.htm

13:21пожаловаться #7

Сейчас конечно это не SOTA, но может работать быстро

13:21пожаловаться #8

Anton Kazennikov

404

13:22пожаловаться #9

сорри, https://emorynlp.github.io/nlp4j/components/named-entity-recognition.html

13:22пожаловаться #10

в свое время по ускорению меня впечатлило вот это: https://www.hpl.hp.com/techreports/2008/HPL-2008-91R1.pdf

13:23пожаловаться #11

Anton Kazennikov

сорри, https://emorynlp.github.io/nlp4j/components/named-entity-recognition.html

Спасибо

13:23пожаловаться #12

Dmitry in Natural Language Processing

Подскажите хороший размеченный датасет по сентименту, достаточно positive и negative.

Cookie Thief in Natural Language Processing

13:28пожаловаться #13

Dmitry

Подскажите хороший размеченный датасет по сентименту, достаточно positive и negative.

imdb

Cookie Thief in Natural Language Processing

13:32пожаловаться #14

Если на ру, то https://study.mokoron.com/

13:33пожаловаться #15

Только его надо хорошенько почистить, там много мусора и смайлов

В идеале просто оставить алфавит и цифры)

Cookie Thief in Natural Language Processing

13:36пожаловаться #16

Ну смайлы вполне неплохая фича для тональности, имхо)

13:37пожаловаться #17

Тоже верно)
Правда боюсь нейронка (или что-то ещё) запомнит, что (((( - это негатив, а )))) - позитив и на этом всё)

У меня так было с BiLSTM, он особо на другое и не реагировал. Т.к. в датасете очень много мусора

13:39пожаловаться #18

А, и обязательно надо ссылки вычистить, и отсылки к другим профилям (которые с @ начинаются)

13:40пожаловаться #19

Кстати, точность около 75% на sentiment для русского - нормальное значение или можно получить больше?

Обучал на предложенном выше датасете из набора русских твитов, перед BiLSTM использовал word2vec для получения векторов