Size: a a a

2019 November 30

ВК

Вячеслав Колосков in catboost_ru
всем привет. а из CV можно как-то вернуть обученные модели?
источник

AD

Anna Veronika Dorogush in catboost_ru
Нет, только метрики
источник

MK

Mikhail Konyukhov in catboost_ru
На конференции не успели ответить на вопрос: может ли CatBoost работать с временными рядами?
источник

AS

Alexsey Shestacov in catboost_ru
Можно ли использовать кат буст для кластеризации?
источник

AS

Alexsey Shestacov in catboost_ru
мне казалось, что если запустить мултикласс-классификаицю при этом для каждой записи сделать отдельный класс -как целевую, то полученные деревья можно ли рассматривать как иерархическую кластеризацию
источник
2019 December 01

A

Alex.Ash in catboost_ru
Alexsey Shestacov
Классный доклад
Что за доклад?
источник

AS

Alexsey Shestacov in catboost_ru
на YaTalks
источник

AS

Alexsey Shestacov in catboost_ru
источник

N

Norx in catboost_ru
Python for Probability, Statistics, and Machine Learning

@ai_machinelearning_big_data
источник

AM

Alexander Manushin in catboost_ru
Коллеги, кто-нибудь может объяснить: как второе дерево в ансамбле деревьев градиентного бустинга изменяет значения первого для получения общего ответа модели? Складывает/усредняет или как-то ещё? Допустим у нас задача бинарной классификации, где нужно найти вероятность принадлежности объекта к классу 1. Допустим модель градиентного бустинга имеет только 2 дерева. В первом дереве объект прошёл по всему дереву, пришёл, допустим, в лист №1 и получил значение вероятности 0.7, во втором дереве, допустим, этот объект попал в лист №3 и получил значение 0.1. Что дальше с этими значениями делается для получения общего ответа модели по этому объект: 0.7 и 0.1 складываются или например берётся среднее арифметическое?
Сорри, если это какая-то очевидность для всех, но я лично как начинающий Data Scientist хотел бы до конца в этом вопросе разобраться. Спасибо заранее.
источник

SK

Stanislav Kirillov in catboost_ru
Alexander Manushin
Коллеги, кто-нибудь может объяснить: как второе дерево в ансамбле деревьев градиентного бустинга изменяет значения первого для получения общего ответа модели? Складывает/усредняет или как-то ещё? Допустим у нас задача бинарной классификации, где нужно найти вероятность принадлежности объекта к классу 1. Допустим модель градиентного бустинга имеет только 2 дерева. В первом дереве объект прошёл по всему дереву, пришёл, допустим, в лист №1 и получил значение вероятности 0.7, во втором дереве, допустим, этот объект попал в лист №3 и получил значение 0.1. Что дальше с этими значениями делается для получения общего ответа модели по этому объект: 0.7 и 0.1 складываются или например берётся среднее арифметическое?
Сорри, если это какая-то очевидность для всех, но я лично как начинающий Data Scientist хотел бы до конца в этом вопросе разобраться. Спасибо заранее.
В листьях деревьев записаны значения которые нужно суммировать, но это еще не вероятность. Чтоб получить вероятность (в режим бинкласса), к сумме значений листьев применяется сигмоида.
источник

AM

Alexander Manushin in catboost_ru
Stanislav Kirillov
В листьях деревьев записаны значения которые нужно суммировать, но это еще не вероятность. Чтоб получить вероятность (в режим бинкласса), к сумме значений листьев применяется сигмоида.
А значения в листьях могут быть любого знака или только положительные? И какие значения этой итоговой суммы соответствуют значению 0 и 1 сигмоиды? Допустим для одного объекта сумма значений листьев всех деревьев получиалсь 100, для другого 20, а для третьего 150. Будет ли значению суммы 150 соответствовать значение сигмоиды 1, а значению суммы 20 - значение сигмоиды 0 или как это определяется? Может быть есть какой-то доступный источник, где-то какими-то относительно простыми словами описан весь этот механизм работы алгоритма? (чтобы кучу вопросов тут не задавать)?
источник

AM

Alexander Manushin in catboost_ru
Или центр сигмоиды - всегда соответствует нулевой сумме значений листьев, а значения соответствующие 0 и 1 - это минимальное (отрицательное) и максимальное (положительное) значение суммы листьев среди всех объектов обучающей выборки?
источник
2019 December 02

NN

No Name in catboost_ru
Alexander Manushin
А значения в листьях могут быть любого знака или только положительные? И какие значения этой итоговой суммы соответствуют значению 0 и 1 сигмоиды? Допустим для одного объекта сумма значений листьев всех деревьев получиалсь 100, для другого 20, а для третьего 150. Будет ли значению суммы 150 соответствовать значение сигмоиды 1, а значению суммы 20 - значение сигмоиды 0 или как это определяется? Может быть есть какой-то доступный источник, где-то какими-то относительно простыми словами описан весь этот механизм работы алгоритма? (чтобы кучу вопросов тут не задавать)?
источник

AM

Alexander Manushin in catboost_ru
Спасибо.
источник
2019 December 03

K

K-S in catboost_ru
Stanislav Kirillov
В листьях деревьев записаны значения которые нужно суммировать, но это еще не вероятность. Чтоб получить вероятность (в режим бинкласса), к сумме значений листьев применяется сигмоида.
А можно теоретический вопрос. Если к сумме значений листьев применяется сигмоида, то по сути предсказаниям бустинга дальнейшая калибровка не нужна? (В отличии от того же случайного леса)
источник

AG

Artyom Gruzdev in catboost_ru
если кратко, то все равно нужно, а если подробно, вечером кину статьи, кстати, обрати внимание на калибровку сплайнами
источник

D

Dasha in catboost_ru
Коллеги, CatBoostClassifier(...).fit() на виртуальной машинке падает в jupyter на большом дата-сете (более 1 млн строк);
Сталкивался ли кто-либо с подобным и может ли подсказать, в какую сторону копать? Аппаратные ресурсы виртуальной машины, параметры самой модели, ещё какие-либо подводные камни?
источник
2019 December 04

A

Alex.Ash in catboost_ru
Dasha
Коллеги, CatBoostClassifier(...).fit() на виртуальной машинке падает в jupyter на большом дата-сете (более 1 млн строк);
Сталкивался ли кто-либо с подобным и может ли подсказать, в какую сторону копать? Аппаратные ресурсы виртуальной машины, параметры самой модели, ещё какие-либо подводные камни?
Большие дата сеты кидай на GPU
источник

IP

Igor Petrov in catboost_ru
Dasha
Коллеги, CatBoostClassifier(...).fit() на виртуальной машинке падает в jupyter на большом дата-сете (более 1 млн строк);
Сталкивался ли кто-либо с подобным и может ли подсказать, в какую сторону копать? Аппаратные ресурсы виртуальной машины, параметры самой модели, ещё какие-либо подводные камни?
jupyter зло
источник