Size: a a a

Natural Language Processing

2020 April 22

А

Александр in Natural Language Processing
Ivan Sheynin
Понятно )  Ну если по скорости справляется, то и хорошо. Повторюсь, у меня на текстах вообще Extra Trees внезапно лучше чем RF оказались.
Когда в табличке много не релевантных фичей, extra trees будет часто выигрывать у rf
источник

RB

Radion Bikmukhamedov in Natural Language Processing
А как же высокая размерность пространства признаков при tf-idf (тысячи признаков)? Я не понимаю как  RF вообще может давать буст по сравнению с линейными моделями
источник

IR

Ilya Runov in Natural Language Processing
Dmitry Legchikov
LR, SVM и LR примерно равны между собой, a RF лучше их)
А дисбаланс классов сильный?
источник

DL

Dmitry Legchikov in Natural Language Processing
1 к 10 примерно
источник

IR

Ilya Runov in Natural Language Processing
Dmitry Legchikov
1 к 10 примерно
RF вроде мало чувствителен к дисбалансу. Сети чувствительны. Логрег, вроде бы тоже. Поправьте меня коллеги.

Вы какой по метрике модели сравниваете?
источник

DL

Dmitry Legchikov in Natural Language Processing
По f1 micro и глазами примеры из матрицы ошибок смотрел
источник

IR

Ilya Runov in Natural Language Processing
Я пропустил, наверное: сколько классов всего?
источник

DL

Dmitry Legchikov in Natural Language Processing
Два
источник

IR

Ilya Runov in Natural Language Processing
Dmitry Legchikov
По f1 micro и глазами примеры из матрицы ошибок смотрел
Вроде бы predict proba у них у всех есть. Можете ещё порог посмотреть при желании.
источник
2020 April 23

IR

Ilya Runov in Natural Language Processing
А в RF что на вход отдаете, PCA?
источник

D

Dmitry in Natural Language Processing
Yuri Baburov
У меня на таких Fasttext supervised нормально работал
Аналогично, но в моем случае текстов было мало около 20к, три класса. Правда они и на глаз хорошо разделяются
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Ilya Runov
RF вроде мало чувствителен к дисбалансу. Сети чувствительны. Логрег, вроде бы тоже. Поправьте меня коллеги.

Вы какой по метрике модели сравниваете?
В логрег есть опция balanced, если использовать sklearn. Дисбаланс влияет обычно на качество, нужно смотреть precision/recall
источник

IR

Ilya Runov in Natural Language Processing
Radion Bikmukhamedov
В логрег есть опция balanced, если использовать sklearn. Дисбаланс влияет обычно на качество, нужно смотреть precision/recall
есть, да. Но она влияет на результат не настолько сильно на _маленьких_ dataset, насколько сам дисбаланс на него влияет. Верно? :-)
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Ilya Runov
есть, да. Но она влияет на результат не настолько сильно на _маленьких_ dataset, насколько сам дисбаланс на него влияет. Верно? :-)
я не совсем понял посыл. если есть значитальный дисбаланс классов, его нужно исправлять, чтобы при обучении и потом при предикте не было перекоса в какую-либо сторону. каким именно образом это делать (сэмплинг, веса cost function) — зависит от задачи и не играет больщой роли, как я понимаю
источник

w

weakSB in Natural Language Processing
David (ddale) Dale
А вас собственно классификация (с размеченными данными) или кластеризация (с неразмеченными) интересует?)
Большое спасибо за пример и прочее.

Формально, мне требуется и то то.

Я знаю количество классов, данные размечены.

Требуется проанилизировать собственную метрику, мол, будут ли результаты классификации и кластеризации лучше, или нет с использованием собственной метрики.

Еще раз спасибо за пример.
источник
2020 April 24

MC

Michael Chertushkin in Natural Language Processing
Ребята, всем привет. Я тут что-то задумался. А NER может быть multi-label таском?
источник

MC

Michael Chertushkin in Natural Language Processing
При условии что датасет в ConLL формате
источник

MC

Michael Chertushkin in Natural Language Processing
По идее один токен -> одна метка
источник

AL

Anton Lozhkov in Natural Language Processing
Michael Chertushkin
При условии что датасет в ConLL формате
В conll такое не получится, одна колонка - один лейбл
источник

MC

Michael Chertushkin in Natural Language Processing
А если без Conll, тогда можно?
источник