Size: a a a

Machine learning

2020 June 24

АГ

Артём Глазунов... in Machine learning
И рассказывают про другие способы регуляризации
источник

АГ

Артём Глазунов... in Machine learning
K-S
Только там надо не просто среднее считать, а гармоническое среднее
При усреднении средних по внутреннему циклу? Или вообще?
источник

K

K-S in Machine learning
Когда вы считаете среднее для категории, оно должно быть гармоническим. Иначе если категория редкая, то обычные средние не будут отображать действительность
источник

AO

Alex Ololo in Machine learning
а если я групфолд использую? должно помочь. не?
источник

K

K-S in Machine learning
Но на практике таргет энкодингом уже, конечно, давно ничего не выиграть :/ он у меня даже локально как-то неособо даёт. А делать проблемнее
источник

K

K-S in Machine learning
K-S
Но на практике таргет энкодингом уже, конечно, давно ничего не выиграть :/ он у меня даже локально как-то неособо даёт. А делать проблемнее
Речь о бустах естественно
источник

АГ

Артём Глазунов... in Machine learning
K-S
Но на практике таргет энкодингом уже, конечно, давно ничего не выиграть :/ он у меня даже локально как-то неособо даёт. А делать проблемнее
Так есть ли ещё что-то? Или вы про другие реализации нахождения статистик(woe, loo, diffirence), типа они работают лучше ?
источник

АГ

Артём Глазунов... in Machine learning
Или о самом алгоритме бустинга с использованием любого энкодера?
источник

K

K-S in Machine learning
Артём Глазунов
Так есть ли ещё что-то? Или вы про другие реализации нахождения статистик(woe, loo, diffirence), типа они работают лучше ?
Лейбл энкодинг + count encoding
источник

K

K-S in Machine learning
И в целом идея генерации разных всяких статистик по категориям хорошая. Я ее чаще даже использую
источник

АГ

Артём Глазунов... in Machine learning
Каунт энкодинг это категории заменять частотами их появления?
источник

АГ

Артём Глазунов... in Machine learning
Там тоже, по идее, кросс валидация такая ведь нужна?
источник

K

K-S in Machine learning
Угу
источник

K

K-S in Machine learning
Артём Глазунов
Там тоже, по идее, кросс валидация такая ведь нужна?
Если для работы — да, но если для соревнований, то нет))
источник

K

K-S in Machine learning
Артём Глазунов
Там тоже, по идее, кросс валидация такая ведь нужна?
Ну и не совсем такая. Там достаточно просто все статистики считать внутри фолдов
источник

АГ

Артём Глазунов... in Machine learning
K-S
Если для работы — да, но если для соревнований, то нет))
А как уберечься от подстраивания на обучении при формировании саба, ведь распределение частот в об. выборке будет случайным, хорошо бы делением тоже заполнить? ... Или лайфхак ещё есть?
источник

АГ

Артём Глазунов... in Machine learning
K-S
Ну и не совсем такая. Там достаточно просто все статистики считать внутри фолдов
То есть одинарное деление
источник

K

K-S in Machine learning
Артём Глазунов
А как уберечься от подстраивания на обучении при формировании саба, ведь распределение частот в об. выборке будет случайным, хорошо бы делением тоже заполнить? ... Или лайфхак ещё есть?
Все статистики считаешь на объединённых трейн+тест
источник

АГ

Артём Глазунов... in Machine learning
K-S
Все статистики считаешь на объединённых трейн+тест
Неплохо)
источник

K

K-S in Machine learning
Тем самым ты и распределения подгоняешь под тест частично
источник