Size: a a a

2019 January 24

D

Danila in catboost_ru
хорошо, спасибо!
источник

FZ

Fedor Zaytsev in catboost_ru
Привет. Наткнулся на назойливую багу. Я запустил jupyter notebook на google cloud и коннектюсь в нему по ssh с локали. Если на ноутбуке запутить cv с параметром verbose=True, то лог отображается в ноутбуке очень редко (а моей машине сначала долгое время пусто, потом сразу отображает 31 итерацию оптимизации, потом через пару часов 651 итерацию). Это немного раздражает потому что нельзя в реальном времени смотрать на прогресс оптимизации. Как такое можно починить? Это у всех такое поведение или это именно проблема из-за моего коннекта по ssh к ноутбуку?
источник
2019 January 25

VB

Vasiliy Belous in catboost_ru
Привет, подскажите по GPU, последние драйвера и CUDA 10 или нужно CUDA 9?
источник

VE

Vasily Ershov in catboost_ru
куда не важна, важен драйвер
драйвер для куды 10 пойдет
источник

VE

Vasily Ershov in catboost_ru
мы сейчас только драйвер требуем
источник

VB

Vasiliy Belous in catboost_ru
спасибо
источник

OT

Oscar Tempter in catboost_ru
Как поступить если я хочу использовать catboost в качестве модели для feature selection в методе https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV но этот метод обязательно принимает X, y , а я не могу в таком формате данные подавать тк у меня есть категориальные признаки и мне нужно содавать пулл
источник

OT

Oscar Tempter in catboost_ru
а все, кажется нашел у самого катбуста поле cat_fetures , можно без пула сделать
источник

OT

Oscar Tempter in catboost_ru
OMG другая проблема, этот метод проверяет все ли признаки числовые. Кто нибудь подскажет годную библиотеку для отбора признаков ?
источник

AD

Anna Veronika Dorogush in catboost_ru
можно перенумеровать значения катфичей, для этой функции будут целыми
источник
2019 January 26

DT

Dmitry Torshin in catboost_ru
Oscar Tempter
OMG другая проблема, этот метод проверяет все ли признаки числовые. Кто нибудь подскажет годную библиотеку для отбора признаков ?
Большинство библиотек отбора признаков не очень...
Да и даже человеку об этом тяжко судить
источник

OT

Oscar Tempter in catboost_ru
Anna Veronika Dorogush
можно перенумеровать значения катфичей, для этой функции будут целыми
Точно, спасибо
источник

FZ

Fedor Zaytsev in catboost_ru
Столкнулся с проблемой что значение метрик которые логирует классификатор при обучении при переданном валидационном сете через eval_sets оказываются гораздо лучше значение посчитанного вручную через sklearn'овский roc_auc_score. Почему это так может быть? Код:
params = {
   'iterations': 200,
   'random_seed': 42,
   'eval_metric': 'AUC',
   'allow_writing_files': False,
   'logging_level': 'Verbose'
}
clf = CatBoostClassifier(**params)
clf.fit(pool,
       use_best_model=True,
       eval_set=[
           pool,
           Pool(x_validation, label=y_validation),
       ]
   )

pred = clf.predict(x_validation)
score = roc_auc_score(y_validation, pred)
print("validation score {}".format(score))
источник

FZ

Fedor Zaytsev in catboost_ru
При этом результат получается примерно такой:
...
...
199:  test: 0.7120764  test1: 0.7113211  best: 0.7113211 (199)  total: 20m 49s  remaining: 0us

bestTest = 0.7113210601
bestIteration = 199

validation score 0.6519415679633148
источник

DK

Dmitriy Kruchinin in catboost_ru
Fedor Zaytsev
При этом результат получается примерно такой:
...
...
199:  test: 0.7120764  test1: 0.7113211  best: 0.7113211 (199)  total: 20m 49s  remaining: 0us

bestTest = 0.7113210601
bestIteration = 199

validation score 0.6519415679633148
predict_proba? Всё-таки auc
источник

FZ

Fedor Zaytsev in catboost_ru
Черт, дествительно, спасибо
источник

DK

Dmitriy Kruchinin in catboost_ru
Чтобы пояснить, predict выдаёт классы, а не RawFormulaVal то есть сырое значение формулы (хотя это для auc тоже работало бы). А predict_proba выдаёт вероятности.
источник

OT

Oscar Tempter in catboost_ru
Кто следил за моими событиями отбора признаков скажу следующее: даже занумеровав признаки ничего не получилось, потому что алгоритм отбора работает таким образом что на каждой своей итерации один из признаков выкидывается. Таким образом нужно было бы создавать новый экземпляр катбуста со списком новых категориальных признаков. Вот если бы разработчики сделали чтобы в качестве категориальных признаков принимался не список индексов, а сами названия, причем не страшно если бы данные не содержали изначального списка категориальных признаков, то можно было бы использовать эти методы feature selection
источник

AD

Anna Veronika Dorogush in catboost_ru
Сделай issue, поддержим
источник

OT

Oscar Tempter in catboost_ru
Anna Veronika Dorogush
Сделай issue, поддержим
А как это сделать?
источник