Телеграмм чат группы catboost_ru страница 297

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

catboost_ru

848 membersпожаловаться на группу

2020 July 08

OO

Oleg Okeev in catboost_ru

Да

Соотвественно сейчас вручную проверяю.
Сделал датафрейм с prob0, prob1 и классом на тестовой выборке
Далее фильтр:
filter_prob1_more_treshold = df_total.loc[df_total['prob1'] > 0.603]
Соотвественно ожидаю увидеть на новом датасете класс0 не более чем в 30% случаях.
Я верно рассуждаю по логике ?

источник

12:44пожаловаться #1

IL

Ivan Lyzhin in catboost_ru

Не совсем так. Вы получите долю истинных 0 среди предсказанных 1. А FPR - это доля предсказанных 1 среди истинных 0.

источник

12:48пожаловаться #2

OO

Oleg Okeev in catboost_ru

Не совсем так. Вы получите долю истинных 0 среди предсказанных 1. А FPR - это доля предсказанных 1 среди истинных 0.

А как мне тогда вручную проверить точность Предсказания класса1?
У меня есть датасет(prob0, prob1, правильные ответы на тестовой выборке)

источник

12:54пожаловаться #3

OO

Oleg Okeev in catboost_ru

Не совсем так. Вы получите долю истинных 0 среди предсказанных 1. А FPR - это доля предсказанных 1 среди истинных 0.

По факту получилось ~0.61/0.39 значит где-то ошибка в логике

источник

12:59пожаловаться #4

IL

Ivan Lyzhin in catboost_ru

fpr можно посчитать так df[(df.target==0) & (df.prob1 > 0.6)].shape[0] / df[df.target==0].shape[0]

источник

13:00пожаловаться #5

OO

Oleg Okeev in catboost_ru

fpr можно посчитать так df[(df.target==0) & (df.prob1 > 0.6)].shape[0] / df[df.target==0].shape[0]

В итоге получил fpr = 0.388 , а должен был получить 0.3 =(

источник

13:17пожаловаться #6

IL

Ivan Lyzhin in catboost_ru

А на обучающем датасете?

источник

13:19пожаловаться #7

OO

Oleg Okeev in catboost_ru

А на обучающем датасете?

Вот сейчас сделаю, скажу. Просто интересно в чем может быть ошибка, если в итоге покажет такой же результат

источник

13:23пожаловаться #8

IL

Ivan Lyzhin in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

источник

13:24пожаловаться #9

OO

Oleg Okeev in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

0.44 получилось на обучающей выборке , значит где-то ошибка

источник

13:30пожаловаться #10

OO

Oleg Okeev in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

Вот такой код, вроде просто и ошибиться невозможно, сейчас ещё раз проверю

arr = model.predict_proba(data=X_validation)
print(arr)

# Суммируем предсказание и результат
df1 = pd.DataFrame(arr, columns=['prob0', 'prob1'])
y_validation.reset_index()
df2 = pd.DataFrame(Y_validation)
df_total = pd.merge(df1, df2, left_index=True, right_index=True)

источник

13:32пожаловаться #11

OO

Oleg Okeev in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

Мы должны взять prob0 и prob1 от X_train и сопоставить с предсказываемой переменной y_train ?

источник

13:45пожаловаться #12

OO

Oleg Okeev in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

Все спасибо. Разобрался. У меня был неверно сделал merge.
На train - ошибка =0.2 на тесте 0.3 как и ожидалось, так как treshold вычислялся на validation

источник

14:52пожаловаться #13

OO

Oleg Okeev in catboost_ru

Около 70% всех ситуаций мы отбросили, в итоге оставили только те, где процент 0.3 и соответственно ситуаций с классом 1 мы нашли ~70%

источник

14:55пожаловаться #14

VG

Vladimir Goncharov in catboost_ru

всем привет
собираю питонячью обертку из исходников.
все ли я правильно делаю? может быть кто-то знает как лечить эту проблему
стековерфлоу не помог

источник

18:50пожаловаться #15

OO

Oleg Okeev in catboost_ru

При вычислении для датасета, на котором выбирался порог, должен быть точный результат. Для другого датасета это уже не гарантируется. Соответственно, чем больше тестовый датасет похож на обучающий, тем ближе будут результаты.

А ещё вопрос. Подходит ли catboost для небинарной классификации? Если классов 3-5?

источник

19:59пожаловаться #16

IL

Ivan Lyzhin in catboost_ru

А ещё вопрос. Подходит ли catboost для небинарной классификации? Если классов 3-5?

Да, есть MultiClass режимы https://catboost.ai/docs/concepts/loss-functions-multiclassification.html

Multiclassification: objectives and metrics - CatBoost. Documentation

Name Used for optimization User-defined parameters Formula and/or description MultiClass + use_weights Default: true Calculation principles MultiClassOneVsAll + use_weights Default: true Calculation principles Precision – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles Recall – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles F1 – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles TotalF1 – use_weights Default: true average Default: Weighted Calculation principles MCC – use_weights Default: true Calculation principles Accuracy – use_weights Default: true Calculation principles HingeLoss – use_weights Default: true See the Wikipedia article. HammingLoss – use_weights Default: true Calculation principles ZeroOneLoss – use_weights Default: true Calculation principles Kappa…

источник

20:02пожаловаться #17

OO

Oleg Okeev in catboost_ru

Да, есть MultiClass режимы https://catboost.ai/docs/concepts/loss-functions-multiclassification.html

Multiclassification: objectives and metrics - CatBoost. Documentation

Name Used for optimization User-defined parameters Formula and/or description MultiClass + use_weights Default: true Calculation principles MultiClassOneVsAll + use_weights Default: true Calculation principles Precision – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles Recall – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles F1 – use_weights Default: true This function is calculated separately for each class k numbered from 0 to M – 1. Calculation principles TotalF1 – use_weights Default: true average Default: Weighted Calculation principles MCC – use_weights Default: true Calculation principles Accuracy – use_weights Default: true Calculation principles HingeLoss – use_weights Default: true See the Wikipedia article. HammingLoss – use_weights Default: true Calculation principles ZeroOneLoss – use_weights Default: true Calculation principles Kappa…

А это недавно появилось ?

источник

21:47пожаловаться #18

IL

Ivan Lyzhin in catboost_ru

А это недавно появилось ?

Давно уже

источник

21:53пожаловаться #19

OO

Oleg Okeev in catboost_ru

И последний вопрос. Выполняя код print(select_threshold(model=model, data=eval_pool, FNR=0.3))
Получаю ответ 0.53
Теперь я должен
Выбирать ситуации с prob0>0.53 или prob1>0.53 ?

источник

23:00пожаловаться #20