Size: a a a

2019 April 11

VS

Vasily Suvorov in catboost_ru
Igor Petrov
Подскажите как из кросс-валидации взять модель для дальнейшего предсказания?
То есть мы получаем лучшее разбиение и как её вытащить уже для обучения?
use_best_model, при чем если eval_set есть, параметр по умолчанию True
источник

IP

Igor Petrov in catboost_ru
Vasily Suvorov
use_best_model, при чем если eval_set есть, параметр по умолчанию True
То есть датасет всё равно вручную делить, нельзя чтоб во время обучения разбивался на фолды?
источник

VS

Vasily Suvorov in catboost_ru
Igor Petrov
То есть датасет всё равно вручную делить, нельзя чтоб во время обучения разбивался на фолды?
источник

IP

Igor Petrov in catboost_ru
Так я про это и в начале спросил)) Это только валидирует, но для обучение как вытащить не знаю
источник

VS

Vasily Suvorov in catboost_ru
Igor Petrov
Так я про это и в начале спросил)) Это только валидирует, но для обучение как вытащить не знаю
наверное, для предсказания, а не обучения. если сразу несколько, то вероятно только самостоятельно зафиксировав параметры где лучшее среднее и Std, как тут работает use_best_model не раскрывается
источник

IP

Igor Petrov in catboost_ru
Vasily Suvorov
наверное, для предсказания, а не обучения. если сразу несколько, то вероятно только самостоятельно зафиксировав параметры где лучшее среднее и Std, как тут работает use_best_model не раскрывается
Спасибо! Думал существуют методы сделать проще
источник

AK

Alexander Khovanskiy in catboost_ru
text_clf = Pipeline([
                    ('tfidf', TfidfVectorizer()),
                    ('clf', RandomForestClassifier(n_estimators=100))
                    ])

model = text_clf.fit(train, train_labels)

подскажите в catboost можно также просто преоброзовыват данные ?
источник

AK

Alexander Khovanskiy in catboost_ru
или нужно руками преоброзовывать и подсовывать в cat_features
источник

AK

Alexander Khovanskiy in catboost_ru
источник

VC

Vad C in catboost_ru
Igor Petrov
Подскажите как из кросс-валидации взять модель для дальнейшего предсказания?
То есть мы получаем лучшее разбиение и как её вытащить уже для обучения?
Определите по CV лучшую итерацию и сделайте фит модели с этой итерацией
источник

VC

Vad C in catboost_ru
Alexander Khovanskiy
text_clf = Pipeline([
                    ('tfidf', TfidfVectorizer()),
                    ('clf', RandomForestClassifier(n_estimators=100))
                    ])

model = text_clf.fit(train, train_labels)

подскажите в catboost можно также просто преоброзовыват данные ?
на мой взгляд так себе идея использовать деревянные методы для анализа текста, сделайте хотябы свертку SVD для вашего случая
источник

Аa

Андрей amber4eg in catboost_ru
Vad C
на мой взгляд так себе идея использовать деревянные методы для анализа текста, сделайте хотябы свертку SVD для вашего случая
люто плюсую.
лемматизация, TfIdf и линейная модель. Не надо деревья, им глубина понадобится безумная
источник

IP

Igor Petrov in catboost_ru
Vad C
Определите по CV лучшую итерацию и сделайте фит модели с этой итерацией
Так он же еще разделяет выборку. Надо это же разделени и итерацию тогда
источник

AK

Alexander Khovanskiy in catboost_ru
А подскажите в какую сторону копать, RandomForestClassifier accuracy_score=0.994 предсказывает в моем случае лучше, чем GradientBoostingClassifier accuracy_score=0.972, с чем это может быть связано?
источник

K

K-S in catboost_ru
Alexander Khovanskiy
А подскажите в какую сторону копать, RandomForestClassifier accuracy_score=0.994 предсказывает в моем случае лучше, чем GradientBoostingClassifier accuracy_score=0.972, с чем это может быть связано?
Вообще хорошо б теоретическое обоснование услышать в ответе на ваш вопрос.

Штука действительно интересная. Подобная тема уже проскакивала у Дьяконова в статье, посвящённой случайному лесу. Там вроде бы по касательной был затронут вопрос, в 100 ли случаях из 100 бустинг на деревьях обойдёт случайный лес или нет. Кто-то даже приводил в качестве примера какие-то старые соревнования на каггле, где лес действительно выигрывал.
источник

K

K-S in catboost_ru
Alexander Khovanskiy
А подскажите в какую сторону копать, RandomForestClassifier accuracy_score=0.994 предсказывает в моем случае лучше, чем GradientBoostingClassifier accuracy_score=0.972, с чем это может быть связано?
А ошибки в валидации точно нет? Приведённые вами показатели - это ведь результаты по CV, я верно понял?
источник

AK

Alexander Khovanskiy in catboost_ru
Нет это не cv
источник

AK

Alexander Khovanskiy in catboost_ru
Код я скриншотил выше
источник

AK

Alexander Khovanskiy in catboost_ru
Я просто разбил выборку
источник

AK

Alexander Khovanskiy in catboost_ru
Я новичек и сделал все примитивно
источник