Size: a a a

2019 April 07

AB

Alexey Belyaev in catboost_ru
Victor Pchelin
Доброе утро, подскажите, нормально, что обученный catboost clf на 3к деревьев занимает 12gb памяти??
max_ctr_complexity=2 у меня уменьшило модель с 13G до 1. Спасибо за подсказку @annaveronika
источник

NK

ID:611170311 in catboost_ru
what loss functoins may be used for binary classificaton? There are only 2 of them in link but mentioned many, the rest will be implemented later? https://catboost.ai/docs/concepts/loss-functions-classification.html
источник

ИБ

Иван Брагин in catboost_ru
остальные недиффиринцируемые, их не получится оптимизировать пока не появится какая то новая математика
источник
2019 April 08

AK

Alexander Khovanskiy in catboost_ru
Попробую еще раз:
Alexander Khovanskiy, [3 Apr 2019 at 16:19:15]:
Добрый день, а может кто прислать пример по работе с текстом в catboost, у меня 66к строк в таблице с колонками: 1 название организации(текст),  2 региональная принадлежность (фед/рег/мун), хотелось бы подсунуть это модели  в  train_data и train_labels но у меня возникает ошибка, не может перевести строку в float, оно и понятно... Видео которые я смотрел, было сказано, что catboost работает с сырыми данными и его можно использовать как черную магию. Я новичек совсем в этой сфере. подскажите как это сделать.

Буду очень благодарен, спасибо
источник

AK

Alexander Khovanskiy in catboost_ru
источник

А

Андрей in catboost_ru
Alexander Khovanskiy
Попробую еще раз:
Alexander Khovanskiy, [3 Apr 2019 at 16:19:15]:
Добрый день, а может кто прислать пример по работе с текстом в catboost, у меня 66к строк в таблице с колонками: 1 название организации(текст),  2 региональная принадлежность (фед/рег/мун), хотелось бы подсунуть это модели  в  train_data и train_labels но у меня возникает ошибка, не может перевести строку в float, оно и понятно... Видео которые я смотрел, было сказано, что catboost работает с сырыми данными и его можно использовать как черную магию. Я новичек совсем в этой сфере. подскажите как это сделать.

Буду очень благодарен, спасибо
все колонки, содержащие не числовые данные нужно передать в cat_features
источник

А

Андрей in catboost_ru
Но если есть колонка, данные из которой нельзя одназначно «занумеровать» - например, отзыв или описание, то cat_features не поможет.
источник

AK

Alexander Khovanskiy in catboost_ru
Андрей
все колонки, содержащие не числовые данные нужно передать в cat_features
Спасибо большое, буду пробывать!
источник

PC

Pika Chu in catboost_ru
Почему Pool.get_labels() возвращает список строк? Почему не ndarray из np.int или np.float32? Супер удивительное поведение.
источник

VE

Vasily Ershov in catboost_ru
Pika Chu
Почему Pool.get_labels() возвращает список строк? Почему не ndarray из np.int или np.float32? Супер удивительное поведение.
ну вообще лейблы могуть быть строками в случае мульти-классификации
источник

PC

Pika Chu in catboost_ru
Vasily Ershov
ну вообще лейблы могуть быть строками в случае мульти-классификации
Кстати, как они кодируются? Из доки не понятно, и примеров нет.
источник

AD

Anna Veronika Dorogush in catboost_ru
Вообще я не уверена, что возвращать строки в этой ситуации - самое правильное решение. Сделай, пожалуйста, issue на гитхабе, там разберемся.
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Привет, я тут titanic решаю, у меня в  train pool такие строчки

Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C

Правильно ли я понимаю, что column description для них - такой?

0  Label  Survived
1  Categ  Pclass
2  Categ  Name
3  Categ  Sex
4  Num  Age
5  Categ  SibSp
6  Categ  Parch
7  Categ  Ticket
8  Num  Fare
9  Categ  Cabin
10  Categ  Embarked
?
источник

NK

ID:611170311 in catboost_ru
per https://github.com/catboost/catboost/issues/279   how to find  code  example  for custom lossfunction  with assigning weights of the classes to each object of this class
источник

NK

ID:611170311 in catboost_ru
still  it is not clear how to  use catboost for inbalanced data : https://stackoverflow.com/questions/54437646/catboost-precision-imbalanced-classes  (CatBoost precision imbalanced classes) hhow to find    a clear code example,
for example from this  video data is inbalanced but model  trained as for  balanced data https://www.youtube.com/watch?v=xl1fwCza9C8&t=44s  code https://github.com/catboost/tutorials/blob/master/events/pydata_moscow_oct_13_2018.ipynb
источник

NK

ID:611170311 in catboost_ru
can be documentation found in one fiel pdf format, especialy  parameters table found in pdf format  https://catboost.ai/docs/concepts/python-reference_parameters-list.html#python-reference_parameters-list
источник

NK

ID:611170311 in catboost_ru
if it possible use many trees at each iteratoins per https://habr.com/en/company/mailru/blog/438562/
источник

NK

ID:611170311 in catboost_ru
pls help to understand if cv function trains model on all folders and then average trees or calcualte model on one folder but calulates performance on all folders or calculate model on all train data but calculate performance on each fodler separetely   per video https://youtu.be/xl1fwCza9C8?t=1853 at 30:53 and code https://github.com/catboost/tutorials/blob/master/events/pydata_moscow_oct_13_2018.ipynb  for from catboost import cv

params = {}
params['loss_function'] = 'Logloss'
params['iterations'] = 80
params['custom_loss'] = 'AUC'
params['random_seed'] = 63
params['learning_rate'] = 0.5

cv_data = cv(
   params = params,
   pool = Pool(X, label=y, cat_features=cat_features),
   fold_count=5,
   shuffle=True,
   partition_random_seed=0,
   plot=True,
   stratified=False,
   verbose=False
)
источник

NK

ID:611170311 in catboost_ru
what loss functoins may be used for binary classificaton? There are only 2 of them in link
https://catboost.ai/docs/concepts/loss-functions-classification.html
I think about minimum probability to mistake for not balanced data,
for example probaility of 1s is 0.05 and probability of 0s is 0.95, so we need F1 metric as loss function?


https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html  with 'weighted' and maybe micro

loss function should be the same as  metric? why to optimise for one function and measure performance by anothe function
as he mentioned logloss is useless https://youtu.be/xl1fwCza9C8?t=1383
источник
2019 April 09

AD

Anna Veronika Dorogush in catboost_ru
Pavel Tyavin 🐈
Привет, я тут titanic решаю, у меня в  train pool такие строчки

Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C

Правильно ли я понимаю, что column description для них - такой?

0  Label  Survived
1  Categ  Pclass
2  Categ  Name
3  Categ  Sex
4  Num  Age
5  Categ  SibSp
6  Categ  Parch
7  Categ  Ticket
8  Num  Fare
9  Categ  Cabin
10  Categ  Embarked
?
Вроде да. У нас есть еще туториал на титанике, можно туда заглянуть. Но там вроде не из файла чтение.
источник