Size: a a a

2020 October 06

AA

Andrey Anisimov in catboost_ru
В Яндексе браузере теперь нельзя скачивать старые определенные версии?
источник

IL

Ivan Lyzhin in catboost_ru
Andrey Anisimov
В Яндексе браузере теперь нельзя скачивать старые определенные версии?
Старые версии катбуста или браузера?
источник
2020 October 07

SS

Sergey Shalnov in catboost_ru
Подскажите плиз по поводу обработки текста.

А есть ли ещё какое ограничение на кол-во BoW фич кроме max_dictionary_size ?
Проблема такая: запускаю тренироваться 2 модели, в одной max_dictionary_size = 2 000, в другой 20 000
Всё остальное так же.
Модели тренируются за одно и то же время и с тем же результатом 🤔
Хотя если я руками инициализирую Dictionary и делаю dictionary.fit(), действительно получаются словари 2000 и 20 000 токенов. Такое ощущение что где-то ещё ограничено кол-во получаемых BoW фич. Как посмотреть сколько их получилось?
источник
2020 October 08

ЕП

Евгений Петров... in catboost_ru
Sergey Shalnov
Подскажите плиз по поводу обработки текста.

А есть ли ещё какое ограничение на кол-во BoW фич кроме max_dictionary_size ?
Проблема такая: запускаю тренироваться 2 модели, в одной max_dictionary_size = 2 000, в другой 20 000
Всё остальное так же.
Модели тренируются за одно и то же время и с тем же результатом 🤔
Хотя если я руками инициализирую Dictionary и делаю dictionary.fit(), действительно получаются словари 2000 и 20 000 токенов. Такое ощущение что где-то ещё ограничено кол-во получаемых BoW фич. Как посмотреть сколько их получилось?
кажется, что ты спрашиваешь про top_tokens_count
https://github.com/catboost/tutorials/blob/master/text_features/text_features_in_catboost.ipynb
источник

SS

Sergey Shalnov in catboost_ru
Ага, я его же нашел. Я правильно понимаю что по дефолту он 2000?
https://github.com/catboost/catboost/blob/c7b2faeb8091a76187155ef17ad447d331c8f4d7/catboost/private/libs/feature_estimator/text_feature_estimators.cpp#L76
источник

ЕП

Евгений Петров... in catboost_ru
судя по коду, да
источник

SS

Sergey Shalnov in catboost_ru
Не работает
   "feature_processing" : {
       "default" : [{
           "dictionaries_names" : ["Dict1"],
           "feature_calcers" : ["BoW:top_tokens_count=10"],
           "tokenizers_names" : ["Space"]
       }],

Что 10, что 10000 - результат одинаков, хотя в словаре указано max_dictionary_size = 10 000
источник

ЕП

Евгений Петров... in catboost_ru
Sergey Shalnov
Не работает
   "feature_processing" : {
       "default" : [{
           "dictionaries_names" : ["Dict1"],
           "feature_calcers" : ["BoW:top_tokens_count=10"],
           "tokenizers_names" : ["Space"]
       }],

Что 10, что 10000 - результат одинаков, хотя в словаре указано max_dictionary_size = 10 000
Это странно. Можешь, пожалуйста, сделать небольшой репродьюсер или сюда, или в личку?
источник
2020 October 09

SS

Sergey Shalnov in catboost_ru
Евгений Петров
Это странно. Можешь, пожалуйста, сделать небольшой репродьюсер или сюда, или в личку?
Похоже всё же работает, у меня ошибка была.
источник

SS

Sergey Shalnov in catboost_ru
Другой вопрос.
Хочу отслеживать свою метрику в процессе тренировки на GPU.
Пробовал как тут https://colab.research.google.com/drive/1u44Y5o_KtoPZcQzhlbqm4f3JXPTljo5R#3.4-Snapshot-Support, тренировать в цикле с save_snapshot и вычислять метрику - падает после нескольких итераций, говорит параметры модели не совпадают с тем что в снапшоте. Хотя меняю только iterations
Можно ли как-то продолжать тренировку сохраненной модели?
источник

SS

Sergey Shalnov in catboost_ru
^ init_model тоже не поддерживается для GPU
источник
2020 October 12

ЕП

Евгений Петров... in catboost_ru
Sergey Shalnov
Другой вопрос.
Хочу отслеживать свою метрику в процессе тренировки на GPU.
Пробовал как тут https://colab.research.google.com/drive/1u44Y5o_KtoPZcQzhlbqm4f3JXPTljo5R#3.4-Snapshot-Support, тренировать в цикле с save_snapshot и вычислять метрику - падает после нескольких итераций, говорит параметры модели не совпадают с тем что в снапшоте. Хотя меняю только iterations
Можно ли как-то продолжать тренировку сохраненной модели?
запросил доступ
источник

SS

Sergey Shalnov in catboost_ru
источник

IP

Igor Petrov in catboost_ru
Можно ли в MultiClass, прикрутить eval_metric F1 ?
источник

ЕП

Евгений Петров... in catboost_ru
источник

ЕП

Евгений Петров... in catboost_ru
источник
2020 October 13

IP

Igor Petrov in catboost_ru
Eval metric should have a single value. Metric MultiClass provides a value for each class, thus it cannot be used as a single value to select best iteration or to detect overfitting. If you just want to look on the values of this metric use custom_metric parameter.
источник

ЕП

Евгений Петров... in catboost_ru
Igor Petrov
Eval metric should have a single value. Metric MultiClass provides a value for each class, thus it cannot be used as a single value to select best iteration or to detect overfitting. If you just want to look on the values of this metric use custom_metric parameter.
например, вот так можно
источник

ЕП

Евгений Петров... in catboost_ru
@SonFire или хочется чего-то большего?
источник

IP

Igor Petrov in catboost_ru
@espetrov так работает, но только для каждого класса отдельно выводит график. Хотелось бы F1 macro как в sklearn.metrics.f1_score
источник