Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2019 February 20

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Но возможно я его неправильно готовлю
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
tonko 22
0.7 bert против 0.84 tf-idf на логреге
Ощутимо. Токенизация учитывает знаки препинания?
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Выкидываю все знаки, препроцессинг еще разный. Для берт не производил чистку стоп-слов и лемматизации не делал, по рекомендациям. Возможно со стоп словами это я зря?)
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
В bert вообще пользовался их препроцессингом, не помню остаются ли там знаки
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
Препроцессинг, конечно, нужно унифицировать.
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Для tf-idf лемматизация играет в плюс, у берта же, скорее будет в минус, хотя я еще не замерял. Попробую на досуге
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
Я имел ввиду) про подготовку для самого bert, а не cross-model
источник
2019 February 26

YS

Yurkiy Slon in NLP_RU - Natural Language Processing & Text Mining
tonko 22
У меня на классификации заявок не побило TF-IDF(50к фичей n-gramm+char-gramm),
Ооо, братишка, я аналогичной задачей начал заниматься - автоматическая маршрутизация заявок на поддержку по группам обработки. Но ты, похоже, меня на 2 корпуса обгоняешь по закопанности в тему :)
источник

YS

Yurkiy Slon in NLP_RU - Natural Language Processing & Text Mining
вот бы позырить твои наработки...
источник
2019 March 01

A

Appa in NLP_RU - Natural Language Processing & Text Mining
tonko 22
На моих данных да, но в них 1. сильный дизбаланс 2. есть плохая разметка
Про сильный дисбалланс - может будет эффективно использовать метрику roc auc вместо accuracy? Сам занимался когда-то этой темой, и столкнулся с этими же проблемами. Сейчас бы попробовал сменить метрику, и опять погонять модель по обучению, только теперь нет для этого ни времени ни смысла.
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Appa
Про сильный дисбалланс - может будет эффективно использовать метрику roc auc вместо accuracy? Сам занимался когда-то этой темой, и столкнулся с этими же проблемами. Сейчас бы попробовал сменить метрику, и опять погонять модель по обучению, только теперь нет для этого ни времени ни смысла.
А как при мультиклассе свести ее к одной метрике? AUC же только для одного класса построить можно. В прочем я сейчас подумал что взвешенно (пропорционально дизбалансу) усреднять - вполне таки выход.
источник

A

Appa in NLP_RU - Natural Language Processing & Text Mining
А, ну возможно. Я сейчас разбирался с этой метрикой, но для бинарной классификации. Про подвох с многоклассовостью не подумал.
источник
2019 March 09

MT

Matvey Tingaev in NLP_RU - Natural Language Processing & Text Mining
Здравствуйте, есть кто использовал spaCy для нахождения сущностей в тексте? Не могу понять почему например для нахождения имени человека используется label PERSON, а для таких же сущностей на немецком языке используется label PER? Разве нет какого-то единого интерфейса?
источник
2019 March 15

VM

Valentin Marenich in NLP_RU - Natural Language Processing & Text Mining
Коллеги, привет! Можете пожалуйста подсказать готовый классификатор текстов по тематикам для английского языка? Или принято всегда свой пилить под задачу?
источник

rd

rus dacent in NLP_RU - Natural Language Processing & Text Mining
источник
2019 April 10

V

Viktoria in NLP_RU - Natural Language Processing & Text Mining
добрый день! нужна помощь, направите, пожалуйста, в нужные материалы 🙏
есть задача: дан датасет (2 столбца, поисковый запрос + его дата). среди этих запросов нужно найти записи, которые относятся, например, к футболу.
я создала массив со словами типо "футбол, месси, чм, цска", разбиваю каждый запрос на леммы с помощью SnowballStemmer и смотрю, есть ли там слово из массива. есть ли еще какие варианты как это сделать?
источник

D🐈

Dan 🐈 Capybara in NLP_RU - Natural Language Processing & Text Mining
Viktoria
добрый день! нужна помощь, направите, пожалуйста, в нужные материалы 🙏
есть задача: дан датасет (2 столбца, поисковый запрос + его дата). среди этих запросов нужно найти записи, которые относятся, например, к футболу.
я создала массив со словами типо "футбол, месси, чм, цска", разбиваю каждый запрос на леммы с помощью SnowballStemmer и смотрю, есть ли там слово из массива. есть ли еще какие варианты как это сделать?
Что значит нужно найти записи, относящиеся к футболу? Можно подробнее?
Просто найти слова можно и регулярным выражением. Или речь идёт о семантике? Или надо классифицировать?
источник

D🐈

Dan 🐈 Capybara in NLP_RU - Natural Language Processing & Text Mining
Вообще всё сводится к лемматизации, но до того надо бы нормализовать текст: удалить лишние символы (если такие есть), токенизировать, перевести в нижний регистр для удобства
источник

D🐈

Dan 🐈 Capybara in NLP_RU - Natural Language Processing & Text Mining
Вообще есть такая штука, называется bag of words. Вот наверное это тоже следует посмотреть, ознакомиться
источник

V

Viktoria in NLP_RU - Natural Language Processing & Text Mining
Dan 🐈 Capybara
Вообще есть такая штука, называется bag of words. Вот наверное это тоже следует посмотреть, ознакомиться
Спасибо, почитаю
источник