Телеграмм чат группы catboost

Size: a a a

catboost_ru

553 membersпожаловаться на группу

2019 May 16

Igor Petrov in catboost_ru

Anna Veronika Dorogush

3 фича отмечена как Good

да, но ты говоришь, что фичи оцениваются только по pvalue

источник

12:19пожаловаться #1

Anna Veronika Dorogush in catboost_ru

отсечение по 0.01

источник

12:19пожаловаться #2

Sasha Zhu in catboost_ru

Igor Petrov

 from catboost.eval.evaluation_result import *
logloss_result = result.get_metric_results('Logloss')
logloss_result.get_baseline_comparison(
    ScoreConfig(ScoreType.Rel, overfit_iterations_info=False)
)

Спасибо

источник

12:19пожаловаться #3

Anna Veronika Dorogush in catboost_ru

статзначимость оценивается по pvalue

источник

12:19пожаловаться #4

Anna Veronika Dorogush in catboost_ru

[good or bad] vs unknown

источник

12:20пожаловаться #5

Anna Veronika Dorogush in catboost_ru

good и bad - решение принимается по скору

источник

12:20пожаловаться #6

Igor Petrov in catboost_ru

Anna Veronika Dorogush

good и bad - решение принимается по скору

вот это и хотел узнать

источник

12:20пожаловаться #7

Igor Petrov in catboost_ru

@annaveronika спасибо

источник

12:20пожаловаться #8

P🐈

Pavel Tyavin 🐈 in catboost_ru

Если у меня в датасете несколько таргетов (колонок), то как проще всего предсказывать их всех? На каждый делать по модели?

источник

18:00пожаловаться #9

P🐈

Pavel Tyavin 🐈 in catboost_ru

Природа этих таргетов разная, но они скоррелированы.

источник

18:02пожаловаться #10

Blen obema in catboost_ru

Pavel Tyavin 🐈

У тебя каждая колонка в датасете это по очереди целевая переменная?

источник

18:15пожаловаться #11

P🐈

Pavel Tyavin 🐈 in catboost_ru

Есть фичёвые колонки, есть целевые, да

источник

18:16пожаловаться #12

Anna Veronika Dorogush in catboost_ru

Pavel Tyavin 🐈

Да, только так

источник

18:17пожаловаться #13

2019 May 17

Anna Veronika Dorogush in catboost_ru

Мы теперь есть в слаке: русскоязычный opendatascience (#tool_catboost) и англоязычный dscommunity (#catboost). Приглашаем туда любителей слаковских тредов! В англоязычном слаке канал приватный, но можно меня попросить, добавлю туда.
Регаться тут: https://ods.ai (Присоединиться) и тут https://app.dataquest.io/chat

ods.ai

Open Data Science

Data Science Community

источник

13:09пожаловаться #14

Andrey Vetrov in catboost_ru

источник

18:32пожаловаться #15

Andrey Vetrov in catboost_ru

Скажите, пожалуйста, почему при трейне может быть такая ситуация как на картинке: rmse на тесте постоянно ниже чем на трйне

источник

18:33пожаловаться #16

Andrey Vetrov in catboost_ru

Картинка взята из статьи https://towardsdatascience.com/ad-demand-forecast-with-catboost-lightgbm-819e5073cd3e

Medium

Ad Demand Forecast with Catboost & LightGBM

Predict demand for an online classified ad, Feature engineering

источник

18:35пожаловаться #17

Anna Veronika Dorogush in catboost_ru

Спасибо за отличный вопрос, скоро мы выложим FAQ, где будет на него ответ.
Why is metric value on validation dataset sometimes better than one on training dataset.
This happens because auto-generated numerical features that are based on categorical features are calculated differently for training dataset and for validation dataset.
For training dataset the feature is calculated differently for every object in the dataset. For object i feature is calculated based on data from first i-1 objects (the first i-1 objects in some random permutation).
For validation dataset the same feature is calculated using data from all objects of the training dataset.
The feature that is calculated using data from all objects of the training dataset, uses more data, then the feature, that is calculated only on on part of the dataset. For this reason this feature is more powerful. A more powerful feature results in a better loss value.
Thus, loss value on the validation dataset might be better then loss value for training dataset, because validation dataset has more powerful features.
The algorithm, that represents how auto-generated numerical features are calculated, and theoretical foundations for them are described in the following papers:
https://tech.yandex.com/catboost/doc/dg/concepts/educational-materials-papers-docpage/ (the first two papers) and here https://tech.yandex.com/catboost/doc/dg/concepts/educational-materials-videos-docpage/ (the second video).

источник

18:45пожаловаться #18

Andrey Vetrov in catboost_ru

А усреднение по нескольким пермутациям при расчете числовых признаков на трейне не делается? На первый взгляд это изменило бы ситуацию?

источник

19:07пожаловаться #19

Anna Veronika Dorogush in catboost_ru

Усреднение нигде не делается, его и не надо делать. Можно было бы считать во время обучения еще и лосс на модели, которая будет, но для этого надо считать ее значения на каждом объекте во время обучения, и хранить все это в памяти. Это долго, занимает память, и не нужно никому.

источник

19:08пожаловаться #20