Size: a a a

2019 February 08

MK

Maxim Khrisanfov in catboost_ru
короче в Pool передай cat_features этого будет достаточно
источник

MK

Maxim Khrisanfov in catboost_ru
я у себя в проекте использую функцию типа

    def get_categorical_features(x, index=False):
       types = x.dtypes
       names = types.index
       return [i if index else names[i] for i in range(len(types)) if str(types[i]) == 'category']

а Pool инициализирую так
Pool(x, y, cat_features=get_categorical_features(x, index=True))
источник

MK

Maxim Khrisanfov in catboost_ru
str(types[i]) == 'category' тут можно заменить на object если не юзаешь тип category
источник

SZ

Sasha Zhu in catboost_ru
Maxim Khrisanfov
str(types[i]) == 'category' тут можно заменить на object если не юзаешь тип category
да, или !=float64
источник

MK

Maxim Khrisanfov in catboost_ru
ну как вариант, если все остальные float64, но лучше float32
источник

RR

Rock Roll in catboost_ru
Нубский вопрос: а как вытащить и сохранить для дальнейшего применения лучшую модель по итогам кросс-валидации?
источник

MK

Maxim Khrisanfov in catboost_ru
Rock Roll
Нубский вопрос: а как вытащить и сохранить для дальнейшего применения лучшую модель по итогам кросс-валидации?
насколько я знаю пока нет такой возможности, catboost.cv возвращает результаты подсчета метрик на каждой итерации
источник

RR

Rock Roll in catboost_ru
Но как тогда воспользоваться результатами cv?
источник

MK

Maxim Khrisanfov in catboost_ru
result = catboost.cv(...)
print(result)

😊
источник

MK

Maxim Khrisanfov in catboost_ru
result будет таблица pandas
источник

SZ

Sasha Zhu in catboost_ru
Хорошо, вот получила я результат, и что потом, как его применить-то?)
источник

MK

Maxim Khrisanfov in catboost_ru
вообще пока catboost.cv не очень юзабелен, на GPU например быстрее обучить 5 фолдов самому чем юзать catboost.cv - очень медленно на большом датасете + визуализация катбустовская подтупливает
надеюсь исправят в будущем :)
источник

SZ

Sasha Zhu in catboost_ru
Maxim Khrisanfov
вообще пока catboost.cv не очень юзабелен, на GPU например быстрее обучить 5 фолдов самому чем юзать catboost.cv - очень медленно на большом датасете + визуализация катбустовская подтупливает
надеюсь исправят в будущем :)
https://www.kaggle.com/aharless/simple-catboost-cv-lb-281 ты о таком примерно сейчас?
источник

MK

Maxim Khrisanfov in catboost_ru
не знаю сколько там данных, у меня обычно миллион+ наблюдений и 100+ фичей
источник

YB

Yury B in catboost_ru
Скорее Jupyter + plotly подтупливает. Для визуализации можно tensorboard использовать
источник

MK

Maxim Khrisanfov in catboost_ru
> Для визуализации можно tensorboard использовать
думал попробовать, попробую)
источник

SZ

Sasha Zhu in catboost_ru
да мне визауализация сейчас не особо критична, важнее понять, как использовать результаты cv дальше в катбусте)
источник

SZ

Sasha Zhu in catboost_ru
после получения таблицы
источник

MK

Maxim Khrisanfov in catboost_ru
Sasha Zhu
после получения таблицы
выбираешь лучшую итерацию и обучаешь модель до этой итерации
источник

SZ

Sasha Zhu in catboost_ru
параметр iterations, да?
источник