Телеграмм чат группы catboost

Зачем?

Вот есть такая задача)

20:19пожаловаться #1

Зачем?

Скорее всего, автор не хочет заружать в память весь датасет, так как он не помещается в гпу, а хочет, как при обучении нейронок, на каждой итерации читать с диска небольшими порциями.

20:25пожаловаться #2

Не очень понятен ее смысл. 1 итерации для обучения более-менее приемлемого качества будет недостаточно.

20:26пожаловаться #3

Если перезагружать датасет на каждую итерацию - будет очень медленно.

20:26пожаловаться #4

Не очень понятен ее смысл. 1 итерации для обучения более-менее приемлемого качества будет недостаточно.

И итерация не одна, весь датасет (или его подмножество) перебирается, каждый раз перечитывая диск

20:29пожаловаться #5

Если перезагружать датасет на каждую итерацию - будет очень медленно.

Думаю, многие готовы заплатить временем за возможность обучаться на терабайте данных.
Если это конечно не ломает каких-то предварительных обработок всего датасета: бордеры там расставить и тп

20:30пожаловаться #6

Если дело действительно в размере датасета, то можно порекомендовать предварительную внешнюю квантизацию, это может снизить требования к размеру CPU RAM, но квантизованные данные все равно должны целиком помещаться в CPU или GPU (если обучение на GPU) RAM.

20:34пожаловаться #7

Можно учить по одной итерации подставляя результат предыдущей в init_model

20:34пожаловаться #8

но оверхед на загрузку данных будет очень большим по сравнению с временем итерации, особенно если речь про GPU.

20:35пожаловаться #9

Думаю настолько большим, что скорее всего не будет смысла учить на GPU

20:36пожаловаться #10

Можно учить по одной итерации подставляя результат предыдущей в init_model

Да, это и практикуем

20:37пожаловаться #11

Думаю настолько большим, что скорее всего не будет смысла учить на GPU

Ну, можно ведь и не по одному примеру загружать, а десятую часть, например, и так десять раз.

В общем был бы крайне полезен проработанный фреймворк по использованию генераторов, которые должны читать данные пачками, основанный на init_model, но чтобы задумывался об этих тонкостях не юзер. Юзер бы просто написал генератор по вашим спецификациям

20:40пожаловаться #12

Возможно, для этого есть какие-то фундаментальные ограничения, связанные с невозможностью препроцессинга без загрузки всех данных. Но если это не так, было бы здорово увидеть когда-нибудь в катбусте api генераторов как в keras

20:44пожаловаться #13

DU in catboost_ru

Добрый вечер. В версии CLI можно где-то указать "," как десятичный разделитель?

22:21пожаловаться #14

DU in catboost_ru

По дефолту "."

22:22пожаловаться #15

Нет. Могу только посоветовать препроцессинг с заменой "," -> '.'.

23:42пожаловаться #16

2021 March 13

DU in catboost_ru

Ага, так делаю сейчас. Думал может есть параметр. Спасибо.

00:05пожаловаться #17

Polina Bezrukavaja in catboost_ru

Кейс: очень маленький датасет (на 800 объектов). Задача бинарной классификации. При перемене random_state СИЛЬНО скачат метрики, зафиксированны перепады до 20 проц при чем roc_auc падает, f1 растет и наоборот. GridSearchCV best score выдает всегда значительно ниже чем последующий best estimator отдельно. Есть гипотеза, что часть объектов очень полезна для модели и хорошо ее обучает и когда эти оъекты выпадают из train, модель начинает хуже предсказывать. Можно ли как то достоверно проверить это? выявить эти объекты?

05:03пожаловаться #18

Polina Bezrukavaja in catboost_ru

Я думаю сделать несколько кроссвалидаций вручную и отследить в каких фолдах скор лучше есть ли достоверная зависимость в содержащихся объектах по индексам. но это такааая отсебятина, может какие то умные люди уже чтото придумали нормальное человеческое

05:06пожаловаться #19

Andrew in catboost_ru

Polina Bezrukavaja

Можно забутстрапить, и посмотреть на распределение. Если оно явно ненормально перекошенное, то это может быть доводом в пользу теории. Еще, развивая идею ресемплинга, можно по ним посчитать корреляцию (присутствие примера) vs (итоговые метрики).
Из конкретно катбустовых, где-то в районе feature importance могли лежать аналогичные оценки для сэмплов, тут я точно не помню и не сориентирую.