Size: a a a

2019 April 09

AD

Anna Veronika Dorogush in catboost_ru
ID:611170311
what loss functoins may be used for binary classificaton? There are only 2 of them in link
https://catboost.ai/docs/concepts/loss-functions-classification.html
I think about minimum probability to mistake for not balanced data,
for example probaility of 1s is 0.05 and probability of 0s is 0.95, so we need F1 metric as loss function?


https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html  with 'weighted' and maybe micro

loss function should be the same as  metric? why to optimise for one function and measure performance by anothe function
as he mentioned logloss is useless https://youtu.be/xl1fwCza9C8?t=1383
Вроде на все вопросы выше в ods чате и в issues-ах ответила, как могла, наверное тут третий раз не имеет смысла дублировать.
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Anna Veronika Dorogush
Вроде да. У нас есть еще туториал на титанике, можно туда заглянуть. Но там вроде не из файла чтение.
Решил свою проблему. Чтение из csv , в котором delimiter="," подвело. Запятые в строках в кавычках интерпретировались как разделитель
источник

AD

Anna Veronika Dorogush in catboost_ru
а, да, мы как раз из-за титаника issue сделали - читать правильно запятые.
источник

AD

Anna Veronika Dorogush in catboost_ru
там help wanted - помогайте!
источник

IP

Igor Petrov in catboost_ru
Если дата записана форматом: день недели; час дня
То
день недели - категориальный
час дня - не категориальный
Или вообще не принципиально?
источник

AF

Alexey Filimonov in catboost_ru
Подскажите пожалуйста как можно посчитать, сколько потребляется памяти на GPU в процессе обучения? От чего зависит объём потребляемой памяти?
источник

AD

Anna Veronika Dorogush in catboost_ru
Alexey Filimonov
Подскажите пожалуйста как можно посчитать, сколько потребляется памяти на GPU в процессе обучения? От чего зависит объём потребляемой памяти?
Мы планируем в питон добавить функцию рассчета памяти. Можно будет в код ее посмотреть, там все будет. Сделай, пожалуйста, issue, отпишемся в него, когда добавим.
источник

AF

Alexey Filimonov in catboost_ru
Anna Veronika Dorogush
Мы планируем в питон добавить функцию рассчета памяти. Можно будет в код ее посмотреть, там все будет. Сделай, пожалуйста, issue, отпишемся в него, когда добавим.
хорошо, спасибо за ответ)
источник

IP

Igor Petrov in catboost_ru
Андрей amber4eg
Если у тебя в заполненных значениях встречаются нулевые, то можно пропуски ещё попробовать заполнять сильно несуществующими значениями (типа -66666666 для температуры, например), или средними.
Советовали с Nan, но он не работает
cat_features must be integer or string, real number values and NaN values should be converted to string.
источник

ИБ

Иван Брагин in catboost_ru
Igor Petrov
Если дата записана форматом: день недели; час дня
То
день недели - категориальный
час дня - не категориальный
Или вообще не принципиально?
Лучше попробовать оба варианта, можно даже попробовать добавить каждый признак в двух вариантах (и категорией и не категорией). Если он будет категорией, на нем считается target encoding (если ctr_complexity >1 то энкодинг посчитается ещё и в совокупности с другими категориями), если признак обычный, на нем будут делаться сплиты.
Что для модели важнее - разбить на утро и вечер (выходные и будни) или посчитать процент positive в час ночи в субботу или и то и другое можно проверить эксперементальным путем.
источник

IP

Igor Petrov in catboost_ru
Иван Брагин
Лучше попробовать оба варианта, можно даже попробовать добавить каждый признак в двух вариантах (и категорией и не категорией). Если он будет категорией, на нем считается target encoding (если ctr_complexity >1 то энкодинг посчитается ещё и в совокупности с другими категориями), если признак обычный, на нем будут делаться сплиты.
Что для модели важнее - разбить на утро и вечер (выходные и будни) или посчитать процент positive в час ночи в субботу или и то и другое можно проверить эксперементальным путем.
ну самое главное нету разницы в результате
источник

ИБ

Иван Брагин in catboost_ru
если нет разницы, то лучше не делать его категорией, категории жрут больше памяти и время
источник

ИБ

Иван Брагин in catboost_ru
Статья готова
https://habr.com/ru/post/447376/
перевод пока не осилил, может на основе комментариев поправлю и  на следующих выходных переведу.
По настройкам catboost  мог в чем то ошибится, буду рад замечаниям
источник

IP

Igor Petrov in catboost_ru
Иван Брагин
если нет разницы, то лучше не делать его категорией, категории жрут больше памяти и время
спасибо
источник

AD

Anna Veronika Dorogush in catboost_ru
Иван Брагин
Статья готова
https://habr.com/ru/post/447376/
перевод пока не осилил, может на основе комментариев поправлю и  на следующих выходных переведу.
По настройкам catboost  мог в чем то ошибится, буду рад замечаниям
Здорово, отлично получилось! Мы поделимся у себя в контакте и твиттере.
источник

AD

Anna Veronika Dorogush in catboost_ru
у тебя есть логин в твиттере, чтобы тебя затегать?
источник

ИБ

Иван Брагин in catboost_ru
Anna Veronika Dorogush
у тебя есть логин в твиттере, чтобы тебя затегать?
не, я не пользуюсь
источник

SK

Stanislav Kirillov in catboost_ru
Иван Брагин
Статья готова
https://habr.com/ru/post/447376/
перевод пока не осилил, может на основе комментариев поправлю и  на следующих выходных переведу.
По настройкам catboost  мог в чем то ошибится, буду рад замечаниям
Классная статья! :)
источник

MK

Maxim Khrisanfov in catboost_ru
Иван Спасибо за статью.
Из статьи: bagging_temperature - Уменьшение значения ведет к увеличению оверфита.
Это точно так? В том видео, на которое ты ссылаешься, не говорится такое, насколько я помню там речь шла о random_strength и L2.
источник

IP

Igor Petrov in catboost_ru
0.13.1 нельзя передать категориальные признаки названием столбцов
Invalid cat_features[0] = Запрос вручную value type=<class 'str'>: must be int().
источник