Телеграмм чат группы catboost

2020 October 06

AA

Andrey Anisimov in catboost_ru

В Яндексе браузере теперь нельзя скачивать старые определенные версии?

источник

16:39пожаловаться #1

IL

Ivan Lyzhin in catboost_ru

Andrey Anisimov

В Яндексе браузере теперь нельзя скачивать старые определенные версии?

Старые версии катбуста или браузера?

источник

19:21пожаловаться #2

2020 October 07

SS

Sergey Shalnov in catboost_ru

Подскажите плиз по поводу обработки текста.

А есть ли ещё какое ограничение на кол-во BoW фич кроме max_dictionary_size ?
Проблема такая: запускаю тренироваться 2 модели, в одной max_dictionary_size = 2 000, в другой 20 000
Всё остальное так же.
Модели тренируются за одно и то же время и с тем же результатом 🤔
Хотя если я руками инициализирую Dictionary и делаю dictionary.fit(), действительно получаются словари 2000 и 20 000 токенов. Такое ощущение что где-то ещё ограничено кол-во получаемых BoW фич. Как посмотреть сколько их получилось?

источник

19:16пожаловаться #3

2020 October 08

ЕП

Евгений Петров... in catboost_ru

Sergey Shalnov

Подскажите плиз по поводу обработки текста.

А есть ли ещё какое ограничение на кол-во BoW фич кроме max_dictionary_size ?
Проблема такая: запускаю тренироваться 2 модели, в одной max_dictionary_size = 2 000, в другой 20 000
Всё остальное так же.
Модели тренируются за одно и то же время и с тем же результатом 🤔
Хотя если я руками инициализирую Dictionary и делаю dictionary.fit(), действительно получаются словари 2000 и 20 000 токенов. Такое ощущение что где-то ещё ограничено кол-во получаемых BoW фич. Как посмотреть сколько их получилось?

кажется, что ты спрашиваешь про top_tokens_count
https://github.com/catboost/tutorials/blob/master/text_features/text_features_in_catboost.ipynb

GitHub

catboost/tutorials

CatBoost tutorials repository. Contribute to catboost/tutorials development by creating an account on GitHub.

источник

13:02пожаловаться #4

SS

Sergey Shalnov in catboost_ru

Ага, я его же нашел. Я правильно понимаю что по дефолту он 2000?
https://github.com/catboost/catboost/blob/c7b2faeb8091a76187155ef17ad447d331c8f4d7/catboost/private/libs/feature_estimator/text_feature_estimators.cpp#L76

GitHub

catboost/catboost

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports comp...

источник

13:05пожаловаться #5

ЕП

Евгений Петров... in catboost_ru

судя по коду, да

источник

13:29пожаловаться #6

SS

Sergey Shalnov in catboost_ru

Не работает
"feature_processing" : {
"default" : [{
"dictionaries_names" : ["Dict1"],
"feature_calcers" : ["BoW:top_tokens_count=10"],
"tokenizers_names" : ["Space"]
}],

Что 10, что 10000 - результат одинаков, хотя в словаре указано max_dictionary_size = 10 000

источник

18:09пожаловаться #7

ЕП

Евгений Петров... in catboost_ru

Sergey Shalnov

Не работает
"feature_processing" : {
"default" : [{
"dictionaries_names" : ["Dict1"],
"feature_calcers" : ["BoW:top_tokens_count=10"],
"tokenizers_names" : ["Space"]
}],

Что 10, что 10000 - результат одинаков, хотя в словаре указано max_dictionary_size = 10 000

Это странно. Можешь, пожалуйста, сделать небольшой репродьюсер или сюда, или в личку?

источник

20:16пожаловаться #8

2020 October 09

SS

Sergey Shalnov in catboost_ru

Евгений Петров

Это странно. Можешь, пожалуйста, сделать небольшой репродьюсер или сюда, или в личку?

Похоже всё же работает, у меня ошибка была.

источник

16:55пожаловаться #9

SS

Sergey Shalnov in catboost_ru

Другой вопрос.
Хочу отслеживать свою метрику в процессе тренировки на GPU.
Пробовал как тут https://colab.research.google.com/drive/1u44Y5o_KtoPZcQzhlbqm4f3JXPTljo5R#3.4-Snapshot-Support, тренировать в цикле с save_snapshot и вычислять метрику - падает после нескольких итераций, говорит параметры модели не совпадают с тем что в снапшоте. Хотя меняю только iterations
Можно ли как-то продолжать тренировку сохраненной модели?

Google

Google Colaboratory

источник

17:02пожаловаться #10

SS

Sergey Shalnov in catboost_ru

^ init_model тоже не поддерживается для GPU

источник

22:10пожаловаться #11

2020 October 12

ЕП

Евгений Петров... in catboost_ru

Sergey Shalnov

Другой вопрос.
Хочу отслеживать свою метрику в процессе тренировки на GPU.
Пробовал как тут https://colab.research.google.com/drive/1u44Y5o_KtoPZcQzhlbqm4f3JXPTljo5R#3.4-Snapshot-Support, тренировать в цикле с save_snapshot и вычислять метрику - падает после нескольких итераций, говорит параметры модели не совпадают с тем что в снапшоте. Хотя меняю только iterations
Можно ли как-то продолжать тренировку сохраненной модели?

Google

Google Colaboratory

запросил доступ

источник

07:29пожаловаться #12

SS

Sergey Shalnov in catboost_ru

Извиняюсь, вот он, оригинальный
https://colab.research.google.com/github/catboost/tutorials/blob/master/python_tutorial.ipynb#3.4-Snapshot-Support

источник

15:04пожаловаться #13

IP

Igor Petrov in catboost_ru

Можно ли в MultiClass, прикрутить eval_metric F1 ?

источник

18:54пожаловаться #14

ЕП

Евгений Петров... in catboost_ru

возможно, это уже сделано https://doc.yandex-team.ru/ml/catboost/doc/concepts/loss-functions-multiclassification.html

источник

20:16пожаловаться #15

ЕП

Евгений Петров... in catboost_ru

источник

20:17пожаловаться #16

2020 October 13

IP

Igor Petrov in catboost_ru

Евгений Петров

возможно, это уже сделано https://doc.yandex-team.ru/ml/catboost/doc/concepts/loss-functions-multiclassification.html

Eval metric should have a single value. Metric MultiClass provides a value for each class, thus it cannot be used as a single value to select best iteration or to detect overfitting. If you just want to look on the values of this metric use custom_metric parameter.

источник

09:22пожаловаться #17

ЕП

Евгений Петров... in catboost_ru

Igor Petrov

Eval metric should have a single value. Metric MultiClass provides a value for each class, thus it cannot be used as a single value to select best iteration or to detect overfitting. If you just want to look on the values of this metric use custom_metric parameter.

например, вот так можно

источник

11:38пожаловаться #18

ЕП

Евгений Петров... in catboost_ru

@SonFire или хочется чего-то большего?

источник

11:39пожаловаться #19

IP

Igor Petrov in catboost_ru

@espetrov так работает, но только для каждого класса отдельно выводит график. Хотелось бы F1 macro как в sklearn.metrics.f1_score

источник

11:41пожаловаться #20