Size: a a a

Machine learning

2021 January 20

SS

Sergey Salnikov in Machine learning
проверь на сэмпле, там данные достаточно равномерные, 1/10 будет весьма репрезантативна
источник

K

K-S in Machine learning
да, вариант
источник

Ю

Юрий in Machine learning
K-S
в целом идея был такая: давайте обучим GMM на таргете. Определим средние, стд и веса смеси. И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. Но так как NGBoost не на плюсах написан, как остальные бусты, то это все это супермедленно
Я так делал, если правильно понял Вас. Что под этим "И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. " понимается?
источник

K

K-S in Machine learning
Юрий
Я так делал, если правильно понял Вас. Что под этим "И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. " понимается?
мой ответ вам не понравится, поскольку пейпер по NGBoost я, признаться честно, не читал. Только хайлайты. Идея была такая, что в NGB можно специфицировать распределение таргета. Из коробки там доступны Нормальное, Пуассона, логнормальное. А в задачке у нас бимодальный таргет и стандартные модели с этим, конечно, не справляются (если ооф предикты отрисовать, то это будет хорошо заметно). Вот поэтому подумал, что спецификация распределения может помочь
источник

SS

Sergey Salnikov in Machine learning
я заметил интересную вещь - все регрессоры, которые я опробовал, давали гистограмму предикшинов с одним пиком, хотя у ground thrue распределение двумодальное. т.е. там типа облака точек из оболочки сферы, и по x, y невозможно угадать z, всегда съезжает на среднее между ними
источник

K

K-S in Machine learning
ага
источник

DP

Dmitry Penzar in Machine learning
K-S
так необязательно алгоритмы будут из разных семейств в стекинге (лгб и катбуст, допустим). Ну и обучаться они могут на разных наборах данных. Стекинг - это ж не только про diversity моделей, это про diversity предсказаний. Тут и разные наборы данных, и разные оптимизируемые функции, ну и разные алгоритмы. Просто более общий подход к механизму леса, имхо
В стекинге - смесь экспертов. И для каждого эксперта его вес определяется самим объектом. В лесе - просто усреднение. В бустинге - вес эксперта не зависит от объекта
источник

SS

Sergey Salnikov in Machine learning
была идея кластеризации, типа manyfold-ов, чтобы попытаться пройтись по этой поверхности
источник

K

K-S in Machine learning
ну был еще более топорный подход. Давайте снова обучим GMM. А потом его предикты используем как таргет для классификатора: чтоб определял по нашим фичам, к какой гауссиане относится сэмпл. И после этого постпроцессить. Пододвигать предикты каждый к своей гауссиане. Но не зашло. Классификатор слабый
источник

DP

Dmitry Penzar in Machine learning
Sergey Salnikov
я заметил интересную вещь - все регрессоры, которые я опробовал, давали гистограмму предикшинов с одним пиком, хотя у ground thrue распределение двумодальное. т.е. там типа облака точек из оболочки сферы, и по x, y невозможно угадать z, всегда съезжает на среднее между ними
Так себя Mse будет вести просто математически.
источник

K

K-S in Machine learning
Dmitry Penzar
В стекинге - смесь экспертов. И для каждого эксперта его вес определяется самим объектом. В лесе - просто усреднение. В бустинге - вес эксперта не зависит от объекта
И?)
источник

DP

Dmitry Penzar in Machine learning
K-S
И?)
Ну я не согласен, что это то же, что лес
источник

K

K-S in Machine learning
Dmitry Penzar
Ну я не согласен, что это то же, что лес
так лес - смесь деревьев. С метаалгоритмом в виде усреднения
источник

DP

Dmitry Penzar in Machine learning
K-S
так лес - смесь деревьев. С метаалгоритмом в виде усреднения
Ок, да, в такой согласен формулировке.
источник

Ю

Юрий in Machine learning
K-S
мой ответ вам не понравится, поскольку пейпер по NGBoost я, признаться честно, не читал. Только хайлайты. Идея была такая, что в NGB можно специфицировать распределение таргета. Из коробки там доступны Нормальное, Пуассона, логнормальное. А в задачке у нас бимодальный таргет и стандартные модели с этим, конечно, не справляются (если ооф предикты отрисовать, то это будет хорошо заметно). Вот поэтому подумал, что спецификация распределения может помочь
Да, понял идею. В этом Стенфорде совсем обленились, могли бы и на плюсах написать бустинг😂
источник

M

Michael in Machine learning
вопрос по первому курсу: что показывает величина PDF для распределения? CDF - я понял, это вероятность, что значение будет ниже или равно заданному, а PDF?
источник

N

Nurtau in Machine learning
Michael
вопрос по первому курсу: что показывает величина PDF для распределения? CDF - я понял, это вероятность, что значение будет ниже или равно заданному, а PDF?
probability density function
источник

M

Michael in Machine learning
Спасибо )) я тоже перевёл название
источник

SS

Sergey Salnikov in Machine learning
это собственно график горба
источник

M

Michael in Machine learning
Это я понял , а цифра что нибудь понятное показывает?
источник