Size: a a a

2019 July 12

K

K-S in catboost_ru
Тест на что? Исходя из того, что пришло в голову после прочтения сообщения - это сравнение долей. Есть хи-квадрат тест для таких целей, например
источник

OT

Oscar Tempter in catboost_ru
@ksstat тест на равенство средних
источник

K

K-S in catboost_ru
Я бы провёл тест хи-квадрат на равенство долей, так как t-тест подразумевает нормальность данных
источник

OT

Oscar Tempter in catboost_ru
Спасибо
источник

SK

Serge Kovalev in catboost_ru
подскажите на примере плз, как должны выглядеть файлики для тенировки модели
- Columns description
- Dataset description
если у меня есть такая csv
material_id;rating;raters;starts;starters;avg_duration;dispersion;
15;3.7142857142857143;7;2184;66;346.743782166666;12.9333958136573;
16;4.0;7;8372;208;1052.6337171204;30.1454805899657;
...
и мне надо классифицировать все material_id на 3 класса (1,2,3)
источник

I

Ivan in catboost_ru
@tierimgras Ставите колонку material_id в Y, все остальные в X и запускаете catboost model.fit
источник

I

Ivan in catboost_ru
источник

AC

Alexander C in catboost_ru
K-S
Я бы провёл тест хи-квадрат на равенство долей, так как t-тест подразумевает нормальность данных
Асимтотическую нормальность, если данных много и вероятности 1 и 0 не слишком малы можно юзать т-тест
источник

AC

Alexander C in catboost_ru
Oscar Tempter
Спасибо
Up
источник

OT

Oscar Tempter in catboost_ru
Alexander C
Асимтотическую нормальность, если данных много и вероятности 1 и 0 не слишком малы можно юзать т-тест
У меня данные бинарные, у меня нет вероятностей. Только 0 и 1
источник

AC

Alexander C in catboost_ru
Вероятность 0 и 1
источник

OT

Oscar Tempter in catboost_ru
Ты имеешь ввиду долю?
источник

K

K-S in catboost_ru
Alexander C
Вероятность 0 и 1
Но ведь у него выборка из бинарной случайной величины по сути
источник

AC

Alexander C in catboost_ru
Oscar Tempter
Ты имеешь ввиду долю?
Конечно
источник

AC

Alexander C in catboost_ru
K-S
Но ведь у него выборка из бинарной случайной величины по сути
В т тесте вверху стоят средние внизу сумму квадратов когда много, то по цпт сходятся к нормальному так что распределение т статистики будет такое же как для нормального
источник

AC

Alexander C in catboost_ru
Чтд
источник

AC

Alexander C in catboost_ru
Проблемы будут если мало или вероятности малы
источник

K

K-S in catboost_ru
А в чем преимущество перед хи-квадратом?
источник

AC

Alexander C in catboost_ru
Ещё тонкость в том, что надо юзать случай 'равных дисперсий', вопрос на понимание - почему?
источник

K

K-S in catboost_ru
Зачем так париться, когда есть хи-квадрат?
источник