Телеграмм чат группы datasciencecourse страница 4678

2021 January 20

SS

Sergey Salnikov in Machine learning

проверь на сэмпле, там данные достаточно равномерные, 1/10 будет весьма репрезантативна

источник

16:10пожаловаться #1

K

K-S in Machine learning

да, вариант

источник

16:11пожаловаться #2

Ю

Юрий in Machine learning

K-S

в целом идея был такая: давайте обучим GMM на таргете. Определим средние, стд и веса смеси. И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. Но так как NGBoost не на плюсах написан, как остальные бусты, то это все это супермедленно

Я так делал, если правильно понял Вас. Что под этим

"И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. "

понимается?

источник

16:11пожаловаться #3

K

K-S in Machine learning

Юрий

Я так делал, если правильно понял Вас. Что под этим

"И обучим NGBoost на кастомном распределении, которым в нашем случае будет смесь. "

понимается?

мой ответ вам не понравится, поскольку пейпер по NGBoost я, признаться честно, не читал. Только хайлайты. Идея была такая, что в NGB можно специфицировать распределение таргета. Из коробки там доступны Нормальное, Пуассона, логнормальное. А в задачке у нас бимодальный таргет и стандартные модели с этим, конечно, не справляются (если ооф предикты отрисовать, то это будет хорошо заметно). Вот поэтому подумал, что спецификация распределения может помочь

источник

16:14пожаловаться #4

SS

Sergey Salnikov in Machine learning

я заметил интересную вещь - все регрессоры, которые я опробовал, давали гистограмму предикшинов с одним пиком, хотя у ground thrue распределение двумодальное. т.е. там типа облака точек из оболочки сферы, и по x, y невозможно угадать z, всегда съезжает на среднее между ними

источник

16:16пожаловаться #5

K

K-S in Machine learning

ага

источник

16:17пожаловаться #6

DP

Dmitry Penzar in Machine learning

K-S

так необязательно алгоритмы будут из разных семейств в стекинге (лгб и катбуст, допустим). Ну и обучаться они могут на разных наборах данных. Стекинг - это ж не только про diversity моделей, это про diversity предсказаний. Тут и разные наборы данных, и разные оптимизируемые функции, ну и разные алгоритмы. Просто более общий подход к механизму леса, имхо

В стекинге - смесь экспертов. И для каждого эксперта его вес определяется самим объектом. В лесе - просто усреднение. В бустинге - вес эксперта не зависит от объекта

источник

16:18пожаловаться #7

SS

Sergey Salnikov in Machine learning

была идея кластеризации, типа manyfold-ов, чтобы попытаться пройтись по этой поверхности

источник

16:18пожаловаться #8

K

K-S in Machine learning

ну был еще более топорный подход. Давайте снова обучим GMM. А потом его предикты используем как таргет для классификатора: чтоб определял по нашим фичам, к какой гауссиане относится сэмпл. И после этого постпроцессить. Пододвигать предикты каждый к своей гауссиане. Но не зашло. Классификатор слабый

источник

16:19пожаловаться #9

DP

Dmitry Penzar in Machine learning

Sergey Salnikov

я заметил интересную вещь - все регрессоры, которые я опробовал, давали гистограмму предикшинов с одним пиком, хотя у ground thrue распределение двумодальное. т.е. там типа облака точек из оболочки сферы, и по x, y невозможно угадать z, всегда съезжает на среднее между ними

Так себя Mse будет вести просто математически.

источник

16:20пожаловаться #10

K

K-S in Machine learning

Dmitry Penzar

В стекинге - смесь экспертов. И для каждого эксперта его вес определяется самим объектом. В лесе - просто усреднение. В бустинге - вес эксперта не зависит от объекта

И?)

источник

16:20пожаловаться #11

DP

Dmitry Penzar in Machine learning

K-S

И?)

Ну я не согласен, что это то же, что лес

источник

16:21пожаловаться #12

K

K-S in Machine learning

Dmitry Penzar

Ну я не согласен, что это то же, что лес

так лес - смесь деревьев. С метаалгоритмом в виде усреднения

источник

16:21пожаловаться #13

DP

Dmitry Penzar in Machine learning

K-S

так лес - смесь деревьев. С метаалгоритмом в виде усреднения

Ок, да, в такой согласен формулировке.

источник

16:22пожаловаться #14

Ю

Юрий in Machine learning

K-S

мой ответ вам не понравится, поскольку пейпер по NGBoost я, признаться честно, не читал. Только хайлайты. Идея была такая, что в NGB можно специфицировать распределение таргета. Из коробки там доступны Нормальное, Пуассона, логнормальное. А в задачке у нас бимодальный таргет и стандартные модели с этим, конечно, не справляются (если ооф предикты отрисовать, то это будет хорошо заметно). Вот поэтому подумал, что спецификация распределения может помочь

Да, понял идею. В этом Стенфорде совсем обленились, могли бы и на плюсах написать бустинг😂

источник

16:27пожаловаться #15

M

Michael in Machine learning

вопрос по первому курсу: что показывает величина PDF для распределения? CDF - я понял, это вероятность, что значение будет ниже или равно заданному, а PDF?

источник

16:33пожаловаться #16

N

Nurtau in Machine learning

Michael

вопрос по первому курсу: что показывает величина PDF для распределения? CDF - я понял, это вероятность, что значение будет ниже или равно заданному, а PDF?

probability density function

источник

16:35пожаловаться #17

M

Michael in Machine learning

Спасибо )) я тоже перевёл название

источник

16:35пожаловаться #18

SS

Sergey Salnikov in Machine learning

это собственно график горба

источник

16:37пожаловаться #19

M

Michael in Machine learning

Это я понял , а цифра что нибудь понятное показывает?

источник

16:38пожаловаться #20