Size: a a a

Natural Language Processing

2020 February 25

ck

cnstntn kndrtv in Natural Language Processing
Что вы использовали для классификации, быстрое? Быстрое 🚀
Supervised FastText может кто пробовал?
источник

FF

Futorio Franklin in Natural Language Processing
cnstntn kndrtv
Что вы использовали для классификации, быстрое? Быстрое 🚀
Supervised FastText может кто пробовал?
Я пробовал, там svm над фт ембеддингами. Работает довольно быстро на коротких сообщениях
источник

ck

cnstntn kndrtv in Natural Language Processing
Futorio Franklin
Я пробовал, там svm над фт ембеддингами. Работает довольно быстро на коротких сообщениях
Спасибо. Запишу в план
источник

AK

Anton Kazennikov in Natural Language Processing
@cnstntn_kndrtv кажется имеет смысл посмотреть на задачу под разыми углами. Например - какое у нее время жизни и потенциал роста? Возможно имеет смысл просто купить железа и заниматься более важными задачами
источник

AK

Anton Kazennikov in Natural Language Processing
С технической стороны я бы начал с профилирования - точно знать, что тормозит
источник

ck

cnstntn kndrtv in Natural Language Processing
Anton Kazennikov
@cnstntn_kndrtv кажется имеет смысл посмотреть на задачу под разыми углами. Например - какое у нее время жизни и потенциал роста? Возможно имеет смысл просто купить железа и заниматься более важными задачами
Согласен. Прогресс в любом случае будет ограничен железом.
Количество классов будет расти, количество и разнообразие текстов - тоже.
Но тут моего желания недостаточно.
источник

AK

Anton Kazennikov in Natural Language Processing
NER можно сделать быстрым. Например при использовании классических методов и линейных моделей. Вот например: https://emorynlp.github.io/nlp4j/components/named-entity-recognition.htm
источник

AK

Anton Kazennikov in Natural Language Processing
Сейчас конечно это не SOTA, но может работать быстро
источник

ck

cnstntn kndrtv in Natural Language Processing
Anton Kazennikov
NER можно сделать быстрым. Например при использовании классических методов и линейных моделей. Вот например: https://emorynlp.github.io/nlp4j/components/named-entity-recognition.htm
404
источник

AK

Anton Kazennikov in Natural Language Processing
источник

AK

Anton Kazennikov in Natural Language Processing
в свое время по ускорению меня впечатлило вот это: https://www.hpl.hp.com/techreports/2008/HPL-2008-91R1.pdf
источник

ck

cnstntn kndrtv in Natural Language Processing
Спасибо
источник

D

Dmitry in Natural Language Processing
Подскажите хороший размеченный датасет по сентименту, достаточно positive и negative.
источник

CT

Cookie Thief in Natural Language Processing
Dmitry
Подскажите хороший размеченный датасет по сентименту, достаточно positive и negative.
imdb
источник

CT

Cookie Thief in Natural Language Processing
Если на ру, то https://study.mokoron.com/
источник

V

Vlad in Natural Language Processing
Только его надо хорошенько почистить, там много мусора и смайлов

В идеале просто оставить алфавит и цифры)
источник

CT

Cookie Thief in Natural Language Processing
Ну смайлы вполне неплохая фича для тональности, имхо)
источник

V

Vlad in Natural Language Processing
Тоже верно)
Правда боюсь нейронка (или что-то ещё) запомнит, что (((( - это негатив, а )))) - позитив и на этом всё)

У меня так было с BiLSTM, он особо на другое и не реагировал. Т.к. в датасете очень много мусора
источник

V

Vlad in Natural Language Processing
А, и обязательно надо ссылки вычистить, и отсылки к другим профилям (которые с @ начинаются)
источник

V

Vlad in Natural Language Processing
Кстати, точность около 75% на sentiment для русского - нормальное значение или можно получить больше?

Обучал на предложенном выше датасете из набора русских твитов, перед BiLSTM использовал word2vec для получения векторов
источник