Size: a a a

2020 June 19

SK

Stanislav Kirillov in catboost_ru
А что за оси и линии на графиках?
источник

VS

Victor Solovev in catboost_ru
На верхних подписал
источник
2020 June 20

A

Alexandr in catboost_ru
Добрый день! Хотелось бы спросить вашего совета. Я занимаюсь загрязнениями воздуха. Задача предсказать уровень загрязнения на три дня вперед. Попробовал catboost, он дал неплохой результат, но  пока что  не поддерживает категориальные переменные для множественной регресии. (multioutput regression). Проблема в том, что данные сильно не сбалансированы, дней, когда загрязнение высокое минимум в 10 раз больше чем  когда уровень загрязнения низкий. Слышал catboost очень успешно применяется в яндекс погоде. Что бы вы посоветовали?
источник
2020 June 22

p

pin in catboost_ru
Alexandr
Добрый день! Хотелось бы спросить вашего совета. Я занимаюсь загрязнениями воздуха. Задача предсказать уровень загрязнения на три дня вперед. Попробовал catboost, он дал неплохой результат, но  пока что  не поддерживает категориальные переменные для множественной регресии. (multioutput regression). Проблема в том, что данные сильно не сбалансированы, дней, когда загрязнение высокое минимум в 10 раз больше чем  когда уровень загрязнения низкий. Слышал catboost очень успешно применяется в яндекс погоде. Что бы вы посоветовали?
Для начала опишите фичи для прогноза. Вероятно в этом основная проблема.
источник

A

Alexandr in catboost_ru
pin
Для начала опишите фичи для прогноза. Вероятно в этом основная проблема.
Данные представляют собой временные ряды. Метеорологические переменные: осадки, давление, температура, разница двух температур с разных станций (эпизоды загрязненности связаны с температурной инверсией), и 2 целевые переменные: уровень загрязнения разных частиц. Проблема в том, что загрязненных эпизодов минимум в 10 раз меньше чем чем незагрязненных и данные крайне несбалансированны.
источник

p

pin in catboost_ru
Какой город? Пошли в приват?
источник

p

pin in catboost_ru
Тут, вроде, как не принято вести диалоги и обсуждать. Только релизы и новые фичи ката.
источник

A

Aleksander in catboost_ru
Всем привет!
Ребят, не поможете с таким вопросом, работаю с текстом в Jupyter Notebook, с помощью sklearn.feature_extraction.text.TfidfVectorizer получаю разреженную матрицу
<119678x142897 sparse matrix of type '<class 'numpy.float64'>'
 with 3271197 stored elements in Compressed Sparse Row format>
на ней пытаюсь обучить CatBoostClassifier().
Если обучаю на CPU, то всё норм (всего используется порядка 7 Гб ОЗУ), но если ставлю task_type='GPU', то ОЗУ быстренько забивается все 16 Гб и получаю сообщение "The kernel appears to have died. It will restart automatically."
Windows 10, 16 Гб ОЗУ, GTX1060 6Гб, catboost 0.23.2
источник

OS

Oleg Shapovalov in catboost_ru
Aleksander
Всем привет!
Ребят, не поможете с таким вопросом, работаю с текстом в Jupyter Notebook, с помощью sklearn.feature_extraction.text.TfidfVectorizer получаю разреженную матрицу
<119678x142897 sparse matrix of type '<class 'numpy.float64'>'
 with 3271197 stored elements in Compressed Sparse Row format>
на ней пытаюсь обучить CatBoostClassifier().
Если обучаю на CPU, то всё норм (всего используется порядка 7 Гб ОЗУ), но если ставлю task_type='GPU', то ОЗУ быстренько забивается все 16 Гб и получаю сообщение "The kernel appears to have died. It will restart automatically."
Windows 10, 16 Гб ОЗУ, GTX1060 6Гб, catboost 0.23.2
Я бы от sparse матрицы ушел к плотной с помощью TruncatedSVD, например. После этого всё должно поместиться на GPU.
источник

A

Aleksander in catboost_ru
Oleg Shapovalov
Я бы от sparse матрицы ушел к плотной с помощью TruncatedSVD, например. После этого всё должно поместиться на GPU.
Ага, спасибо, заработало
Жалко, что вариант с потерей качества(
источник
2020 June 23

VB

Victor Bartel in catboost_ru
Добрый день,

Подскажите пожалуйста, в документации к CatBoost есть одно упоминание о cost function (Coefficient at the L2 regularization term of the cost function). В данном случае это одно и тоже что loss function?
Спасибо.
источник
2020 June 24

I

Ilyas in catboost_ru
Подскажите пожалуйста, увеличение l2_lef_reg уменьшает переобучение или увеличивает? Не смог разобраться на это коэффициент умножается или делиться параметр отвечающий за сложность дерева регрессии
источник

b

bulat in catboost_ru
любая регуляризация должна уменьшать bias
источник

I

Ilyas in catboost_ru
В какую сторону крутить параметр l2_lef_reg что бы уменьшить сложность модели?
источник

b

bulat in catboost_ru
скорее всего в сторону уменьшения глубины)
источник

AT

Aliaksandr Tsukanau in catboost_ru
bulat
любая регуляризация должна уменьшать bias
да ну? Выкручиваем l2 в бесконечность и получаем максимальный bias. Может быть речь о variance?
источник

b

bulat in catboost_ru
логически если in some general case, какая модель будет сложнение - with high bias or with high variance?
источник

MK

Maxim Khrisanfov in catboost_ru
2
источник

b

bulat in catboost_ru
Aliaksandr Tsukanau
да ну? Выкручиваем l2 в бесконечность и получаем максимальный bias. Может быть речь о variance?
ах да, конечно
источник

MK

Maxim Khrisanfov in catboost_ru
Ilyas
Подскажите пожалуйста, увеличение l2_lef_reg уменьшает переобучение или увеличивает? Не смог разобраться на это коэффициент умножается или делиться параметр отвечающий за сложность дерева регрессии
по моим наблюдениям переобучение сильно снижает grow_policy='Lossguide' и max_leaves=10 начиная с 10 потихоньку увеличивать, если говорить про переобучение как разницу ошибки на трейне и валидации
источник