Телеграмм чат группы catboost

Можно сделать ансамбль из разных подвыборок. На моменте предсказания можно усреднить ответы. Главное подвыборки правильно сформировать. От задачи зависит

источник

14:37пожаловаться #5

Stanislav Kirillov in catboost_ru

вообще, тут сложный и, скорее, инфраструктурный вопрос

источник

14:38пожаловаться #6

Stanislav Kirillov in catboost_ru

потому что в конечном итоге, конечно, датасет должен поместиться в память устройств - GPU или CPU серверов

источник

14:38пожаловаться #7

Stanislav Kirillov in catboost_ru

если мы говорим про GPU обучение, а это самый корректный вариант для big data

источник

14:38пожаловаться #8

Stanislav Kirillov in catboost_ru

то тут вопрос скорее в объеме видеопамяти

источник

14:39пожаловаться #9

Stanislav Kirillov in catboost_ru

просто нужно понимать, что 1ТБ исходных данных - это очень нечеткая постановка вопроса 🙂

источник

14:40пожаловаться #10

Stanislav Kirillov in catboost_ru

потому что можно записать его в виде 2 байта на фичу, а можно и по 19 байт на флоатную фичу тратить

источник

14:41пожаловаться #11

Stanislav Kirillov in catboost_ru

так что лучше говорить в терминах количество фичей * количество документов

источник

14:41пожаловаться #12

Stanislav Kirillov in catboost_ru

если взять 1 видеокарту V100 с 32 гигами видеопамяти, то на неё можно положить около 28миллиардов фиче-документов при квантизации флотов на 128 бинов и в 8 раз больше если датасет состоит из только бинарных признаков

источник

14:44пожаловаться #13

Stanislav Kirillov in catboost_ru

если квантовать на 15 бинов, то получится ~56 миллиардов фиче-документов (упаковка каждого квантованного признака в 4 бита)

источник

14:45пожаловаться #14

Stanislav Kirillov in catboost_ru

и это на одной карте

источник

14:46пожаловаться #15

Напыщенное Эго in catboost_ru

Понятно, что ничего непонятно.

источник

14:46пожаловаться #16

Stanislav Kirillov in catboost_ru

Жду вопросов про то, что не понятно 🙂

источник

14:47пожаловаться #17

Напыщенное Эго in catboost_ru

Не владею терминологией ML. Фичи-документы это столбцы-строки?
Я просто представляю себе catboost как черный ящик на вход которого подается массив данных, а catboost ищет корреляции.
Когда я говорю "десятки террабайт" я имею ввиду оптимально оцифрованные данные (ну, например, категории это int'ы а не строки)

источник

15:00пожаловаться #18

Stanislav Kirillov in catboost_ru

Фичи-документы это столбцы-строки? - да

источник

15:01пожаловаться #19

Chingiz Shakenov in catboost_ru

Добрый день. Функция cv принемает параметры folds и fold_count. На сколько я понял, folds — это классы из sklearn.model_selection, такие как KFold и др. Если задается параметр folds, fold_count игнорируется?

источник

15:05пожаловаться #20