Size: a a a

2020 May 18

SK

Stanislav Kirillov in catboost_ru
Maxim FromSiberia
https://i.gyazo.com/4b006fa8eadbfc4fb1baa592477d3509.png

Добрый день!

train.csv размером 6 Gb.
Видео карта NVIDIA GeForce GTX 1050 Ti, в ней 4Gb RAM.

Есть ли способ провести обучение на GPU на множестве, рамер которого больше, чем RAM GPU?
так как у вас датасет с только вещественными фичами, я бы рекомендовал снизить количество бакетов, на которые кванитзуется каждая - по умолчанию на GPU это 128, то есть каждая фича требует 8 бит для хранения, если вы поставите 15 границ, то фича будет требовать всего 4 бита и у вас пойдет обучение.
источник

SK

Stanislav Kirillov in catboost_ru
Параметр --border-count
источник

SK

Stanislav Kirillov in catboost_ru
15 границ бьют фичу на 16 бакетов, я поправил свой коммент
источник

SK

Stanislav Kirillov in catboost_ru
далее, вы можете посмотреть на свои фичи и увидеть, что какие-то фичи лучше таки квантизовать на большее число бакетов, для этого есть параметр --per-float-feature-quantization
источник

SK

Stanislav Kirillov in catboost_ru
через него вы можете указать число границ для каждой фичи отдельно
источник

MF

Maxim FromSiberia in catboost_ru
Если фича принимает небольшое колво значений, (например 1, 2, 3), то квантизация не поможет, верно?
источник

SK

Stanislav Kirillov in catboost_ru
да, она уже пакуется правильным образом
источник

SK

Stanislav Kirillov in catboost_ru
у вас все фичи такие?
источник

MF

Maxim FromSiberia in catboost_ru
Stanislav Kirillov
у вас все фичи такие?
Большинство.
источник

SK

Stanislav Kirillov in catboost_ru
возможно, в условиях очень маленькой GPU памяти вам стоит посэмплировать ваш датасет тогда
источник

SK

Stanislav Kirillov in catboost_ru
и обучить несколько форумул на разных частях и потом суммировать их с усреднением
источник

SK

Stanislav Kirillov in catboost_ru
это не гарантирует лучшее качество, но это выход
источник

MF

Maxim FromSiberia in catboost_ru
Несколько формул - это несколько моделей? Т.е. бьем train set на 2 части, обучаем 2 модели, потом берем среднее предсказание, я верно понял?
источник

SK

Stanislav Kirillov in catboost_ru
да, причем вы просто можете суммировать две или более моделей в один файл
источник

SK

Stanislav Kirillov in catboost_ru
источник

SK

Stanislav Kirillov in catboost_ru
и аналогичный метод есть в питоне
источник

SK

Stanislav Kirillov in catboost_ru
если указать веса при суммировании 0.5, то это эквивалентно усреднению
источник

MF

Maxim FromSiberia in catboost_ru
Ок, т.е. универсального способа пропихнуть train set произвольного размера через память видеокарты не существует?
источник

SK

Stanislav Kirillov in catboost_ru
Да
источник

OT

Oscar Tempter in catboost_ru
как PRAUC вызывать в eval_metric в версии 0.23.1 ?
источник