Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2020 April 22

Александр in Natural Language Processing

Ivan Sheynin

Понятно ) Ну если по скорости справляется, то и хорошо. Повторюсь, у меня на текстах вообще Extra Trees внезапно лучше чем RF оказались.

Когда в табличке много не релевантных фичей, extra trees будет часто выигрывать у rf

источник

20:46пожаловаться #1

Radion Bikmukhamedov in Natural Language Processing

А как же высокая размерность пространства признаков при tf-idf (тысячи признаков)? Я не понимаю как RF вообще может давать буст по сравнению с линейными моделями

источник

21:10пожаловаться #2

Ilya Runov in Natural Language Processing

Dmitry Legchikov

LR, SVM и LR примерно равны между собой, a RF лучше их)

А дисбаланс классов сильный?

источник

23:47пожаловаться #3

Dmitry Legchikov in Natural Language Processing

1 к 10 примерно

источник

23:48пожаловаться #4

Ilya Runov in Natural Language Processing

Dmitry Legchikov

1 к 10 примерно

RF вроде мало чувствителен к дисбалансу. Сети чувствительны. Логрег, вроде бы тоже. Поправьте меня коллеги.

Вы какой по метрике модели сравниваете?

источник

23:51пожаловаться #5

Dmitry Legchikov in Natural Language Processing

По f1 micro и глазами примеры из матрицы ошибок смотрел

источник

23:52пожаловаться #6

Ilya Runov in Natural Language Processing

Я пропустил, наверное: сколько классов всего?

источник

23:53пожаловаться #7

Dmitry Legchikov in Natural Language Processing

Два

источник

23:54пожаловаться #8

Ilya Runov in Natural Language Processing

Dmitry Legchikov

По f1 micro и глазами примеры из матрицы ошибок смотрел

Вроде бы predict proba у них у всех есть. Можете ещё порог посмотреть при желании.

источник

23:57пожаловаться #9

2020 April 23

Ilya Runov in Natural Language Processing

А в RF что на вход отдаете, PCA?

источник

00:01пожаловаться #10

Dmitry in Natural Language Processing

Yuri Baburov

У меня на таких Fasttext supervised нормально работал

Аналогично, но в моем случае текстов было мало около 20к, три класса. Правда они и на глаз хорошо разделяются

источник

07:44пожаловаться #11

Radion Bikmukhamedov in Natural Language Processing

Ilya Runov

В логрег есть опция balanced, если использовать sklearn. Дисбаланс влияет обычно на качество, нужно смотреть precision/recall

источник

09:55пожаловаться #12

Ilya Runov in Natural Language Processing

Radion Bikmukhamedov

есть, да. Но она влияет на результат не настолько сильно на _маленьких_ dataset, насколько сам дисбаланс на него влияет. Верно? :-)

источник

11:10пожаловаться #13

Radion Bikmukhamedov in Natural Language Processing

Ilya Runov

я не совсем понял посыл. если есть значитальный дисбаланс классов, его нужно исправлять, чтобы при обучении и потом при предикте не было перекоса в какую-либо сторону. каким именно образом это делать (сэмплинг, веса cost function) — зависит от задачи и не играет больщой роли, как я понимаю

источник

11:19пожаловаться #14

weakSB in Natural Language Processing

David (ddale) Dale

А вас собственно классификация (с размеченными данными) или кластеризация (с неразмеченными) интересует?)

Большое спасибо за пример и прочее.

Формально, мне требуется и то то.

Я знаю количество классов, данные размечены.

Требуется проанилизировать собственную метрику, мол, будут ли результаты классификации и кластеризации лучше, или нет с использованием собственной метрики.

Еще раз спасибо за пример.

источник

23:34пожаловаться #15

2020 April 24

Michael Chertushkin in Natural Language Processing

Ребята, всем привет. Я тут что-то задумался. А NER может быть multi-label таском?

источник

20:01пожаловаться #16

Michael Chertushkin in Natural Language Processing

При условии что датасет в ConLL формате

источник

20:01пожаловаться #17

Michael Chertushkin in Natural Language Processing