Size: a a a

Machine learning

2020 June 23

i

igor in Machine learning
Разделим на этот раз Теорию вероятностей и Статистику.
Изучать их следует в строгой последовательности сначала теорию вероятностей и только потом Статистику.
.
Итак, Начинать изучения Тервера нужно с азов, то есть с комбинаторики. На этот случай есть замечательные лекции и семинары Райгородского.
Лекции
https://mipt.lectoriy.ru/course/Maths-CombinatoricsBasics-L15
Семинары
https://mipt.lectoriy.ru/course/Maths-CombinatoricsBasics-15S
.
Далее проходим вводный курс по теории вероятности, также от Райгородского Лекции + семинары
Лекции
https://mipt.lectoriy.ru/course/Maths-ProbabilityTheoryBasics-L15
Семинары
https://mipt.lectoriy.ru/course/Maths-ProbabilityTheoryBasics-15S.
После вводного курса проходим офигенный курс на Stepik
https://stepik.org/course/3089/syllabus
источник

K

K-S in Machine learning
Иногда уан хот даже лучше отрабатывает. Как было в соревновании порто сегуро, например
источник

SS

Sergey Salnikov in Machine learning
опять же зависит от данных. если у признака немного значений - можно и заванхотить.
источник

K

K-S in Machine learning
Ещё проблема этих признаков — если вы потом начинаете делать отбор фичей. Но это общая проблема ohe для любого типа моделей. Может так быть, что одна из категорий важная, а другая нет
источник

SS

Sergey Salnikov in Machine learning
главное - не заванходить логические признкаки, они и так - {0, 1}
источник

AM

Anastasiia Murashova in Machine learning
Хэй, я всё ещё хочу спросить, нормально ли то, что при небольшом просроке у меня нет ссылки на дз, чтобы отправить её на проверку?
источник

АГ

Артём Глазунов... in Machine learning
Получается, что проблема ohe в несбалансированности получающихся деревьев(и их плохой производительности),  ослаблении важности признака, потому что он теперь поделен на множество бинарных( его просто редко будут выбирать) и ещё в том, что сплитов может не хватить, чтобы покрыть столько бинарных признаков...
источник

АГ

Артём Глазунов... in Machine learning
Ещё там в ссылке статья, где советуют применять binary encoding при большой кардинальности и числовое кодирование для малой...
источник

АГ

Артём Глазунов... in Machine learning
Но тут, конечно, не учитывается, что числовое кодирование вносит ложный порядок
источник

K

K-S in Machine learning
Артём Глазунов
Но тут, конечно, не учитывается, что числовое кодирование вносит ложный порядок
Если категорий не очень много, это несильно страшно
источник

АГ

Артём Глазунов... in Machine learning
А какое кодирование в скорринге и оттоке, по практике, чаще используется? Все же, если бустинг, к примеру, читал, что таргет энкодинг и leaveoneout.. Но там нужно дополнительно танцы с бубнами, чтобы был прирост...
источник

K

K-S in Machine learning
Артём Глазунов
А какое кодирование в скорринге и оттоке, по практике, чаще используется? Все же, если бустинг, к примеру, читал, что таргет энкодинг и leaveoneout.. Но там нужно дополнительно танцы с бубнами, чтобы был прирост...
В скоринге: WOE
источник

K

K-S in Machine learning
Это тот же таргет энкодинг по сути
источник

АГ

Артём Глазунов... in Machine learning
Логарифм отношения классов по категориям?
источник

АГ

Артём Глазунов... in Machine learning
А используются ли дополнительные действия, чтобы избежать пресловутой утечки таргета(и что это вообще за зверь? Думал раньше, что это просто попадание таргета из теста в трейн и наоборот и просто энкодер в пайплайне спасает, но сейчас засомневался)
источник

K

K-S in Machine learning
Двойная кросс-валидация
источник

АГ

Артём Глазунов... in Machine learning
K-S
Двойная кросс-валидация
Спасибо, где-то читал вкратце
источник

K

K-S in Machine learning
Стас Семёнов на одной из мл тренировок подробно ее разбирал
источник

Е

Егор in Machine learning
Добрый вечер.
Есть вопрос по регуляризатору Lasso (L1). Не могу понять почему он отбрасывает один из коллиарных признаков.
Допустим у нас есть два признака x1 и x2, корреляция между которыми 1.  При этом x1=x2*k (где к константа). Мы их отмасштабировали.  и рассморим два случая:
1) w1=20  w2=0 и пускай лямбда=1. При этом их вклад в штраф Q регялризатора будет лямбда*сумма(|w|)=20+0=20
2) w1=10  w2=10 и лямбда=1.  При этом их вклад в штраф Q регялризатора будет лямбда*сумма(|w|)=10+10=20
То есть в обоих случаях штраф 20. И я не могу понять что в Q "стимулирует" один из признаков w1 или w2 будет равным нулю. Они точно так же могу спокойно распределить вес поровну или как угодно, главное чтобы их сумма была 20. и при любом лямбда ситуация будет такая же

Я могу понять как это работает в L2:
1)  w1=20  w2=0:  лямбда*сумма(|w|)=20**2+0=400
2) w1=10  w2=10:  лямбда*сумма(|w|)=10**2+10**2=200
И понятно почему L2 выбирает второй вариант. Т.к. в нём вклад в ошибку меньше.
источник

K

K-S in Machine learning
Зануление признаков в лассо вызвано использованием проксимального град спуска, насколько я помню
источник