Size: a a a

2019 May 16

IP

Igor Petrov in catboost_ru
Anna Veronika Dorogush
3 фича отмечена как Good
да, но ты говоришь, что фичи оцениваются только по  pvalue
источник

AD

Anna Veronika Dorogush in catboost_ru
отсечение по 0.01
источник

SZ

Sasha Zhu in catboost_ru
Igor Petrov
 from catboost.eval.evaluation_result import *
logloss_result = result.get_metric_results('Logloss')
logloss_result.get_baseline_comparison(
   ScoreConfig(ScoreType.Rel, overfit_iterations_info=False)
)
Спасибо
источник

AD

Anna Veronika Dorogush in catboost_ru
статзначимость оценивается по pvalue
источник

AD

Anna Veronika Dorogush in catboost_ru
[good or bad] vs unknown
источник

AD

Anna Veronika Dorogush in catboost_ru
good и bad - решение принимается по скору
источник

IP

Igor Petrov in catboost_ru
Anna Veronika Dorogush
good и bad - решение принимается по скору
вот это и хотел узнать
источник

IP

Igor Petrov in catboost_ru
@annaveronika спасибо
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Если у меня в датасете несколько таргетов (колонок), то как проще всего предсказывать их всех? На каждый делать по модели?
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Природа этих таргетов разная, но они скоррелированы.
источник

Bo

Blen obema in catboost_ru
Pavel Tyavin 🐈
Если у меня в датасете несколько таргетов (колонок), то как проще всего предсказывать их всех? На каждый делать по модели?
У тебя каждая колонка в датасете это по очереди целевая переменная?
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Есть фичёвые колонки, есть целевые, да
источник

AD

Anna Veronika Dorogush in catboost_ru
Pavel Tyavin 🐈
Если у меня в датасете несколько таргетов (колонок), то как проще всего предсказывать их всех? На каждый делать по модели?
Да, только так
источник
2019 May 17

AD

Anna Veronika Dorogush in catboost_ru
Мы теперь есть в слаке: русскоязычный opendatascience (#tool_catboost) и англоязычный dscommunity (#catboost). Приглашаем туда любителей слаковских тредов! В англоязычном слаке канал приватный, но можно меня попросить, добавлю туда.
Регаться тут: https://ods.ai (Присоединиться) и тут https://app.dataquest.io/chat
источник

AV

Andrey Vetrov in catboost_ru
источник

AV

Andrey Vetrov in catboost_ru
Скажите, пожалуйста, почему при трейне может быть такая ситуация как на картинке: rmse на тесте постоянно ниже чем на трйне
источник

AV

Andrey Vetrov in catboost_ru
источник

AD

Anna Veronika Dorogush in catboost_ru
Спасибо за отличный вопрос, скоро мы выложим FAQ, где будет на него ответ.
Why is metric value on validation dataset sometimes better than one on training dataset.
This happens because auto-generated numerical features that are based on categorical features are calculated differently for training dataset and for validation dataset.
For training dataset the feature is calculated differently for every object in the dataset. For object i feature is calculated based on data from first i-1 objects (the first i-1 objects in some random permutation).
For validation dataset the same feature is calculated using data from all objects of the training dataset.
The feature that is calculated using data from all objects of the training dataset, uses more data, then the feature, that is calculated only on on part of the dataset. For this reason this feature is more powerful. A more powerful feature results in a better loss value.
Thus, loss value on the validation dataset might be better then loss value for training dataset, because validation dataset has more powerful features.
The algorithm, that represents how auto-generated numerical features are calculated, and theoretical foundations for them are described in the following papers:
https://tech.yandex.com/catboost/doc/dg/concepts/educational-materials-papers-docpage/ (the first two papers) and here https://tech.yandex.com/catboost/doc/dg/concepts/educational-materials-videos-docpage/ (the second video).
источник

AV

Andrey Vetrov in catboost_ru
А усреднение по нескольким пермутациям при расчете числовых признаков на трейне не делается? На первый взгляд это изменило бы ситуацию?
источник

AD

Anna Veronika Dorogush in catboost_ru
Усреднение нигде не делается, его и не надо делать. Можно было бы считать во время обучения еще и лосс на модели, которая будет, но для этого надо считать ее значения на каждом объекте во время обучения, и хранить все это в памяти. Это долго, занимает память, и не нужно никому.
источник