Size: a a a

2020 April 23

SK

Stanislav Kirillov in catboost_ru
почему не получится?
источник

SK

Stanislav Kirillov in catboost_ru
и что такое big data
источник

Н

Напыщенное Эго in catboost_ru
Террабайты.. десятки террабайт
источник

A

Algorc in catboost_ru
думаю вопрос про многохостовый режим
источник

VB

Vladimir Baryshev in catboost_ru
Можно сделать ансамбль из разных подвыборок. На моменте предсказания можно усреднить ответы. Главное подвыборки правильно сформировать. От задачи зависит
источник

SK

Stanislav Kirillov in catboost_ru
вообще, тут сложный и, скорее, инфраструктурный вопрос
источник

SK

Stanislav Kirillov in catboost_ru
потому что в конечном итоге, конечно, датасет должен поместиться в память устройств - GPU или CPU серверов
источник

SK

Stanislav Kirillov in catboost_ru
если мы говорим про GPU обучение, а это самый корректный вариант для big data
источник

SK

Stanislav Kirillov in catboost_ru
то тут вопрос скорее в объеме видеопамяти
источник

SK

Stanislav Kirillov in catboost_ru
просто нужно понимать, что 1ТБ исходных данных - это очень нечеткая постановка вопроса 🙂
источник

SK

Stanislav Kirillov in catboost_ru
потому что можно записать его в виде 2 байта на фичу, а можно и по 19 байт на флоатную фичу тратить
источник

SK

Stanislav Kirillov in catboost_ru
так что лучше говорить в терминах количество фичей * количество документов
источник

SK

Stanislav Kirillov in catboost_ru
если взять 1 видеокарту V100 с 32 гигами видеопамяти, то на неё можно положить около 28миллиардов фиче-документов при квантизации флотов на 128 бинов и в 8 раз больше если датасет состоит из только бинарных признаков
источник

SK

Stanislav Kirillov in catboost_ru
если квантовать на 15 бинов, то получится ~56 миллиардов фиче-документов (упаковка каждого квантованного признака в 4 бита)
источник

SK

Stanislav Kirillov in catboost_ru
и это на одной карте
источник

Н

Напыщенное Эго in catboost_ru
Понятно, что ничего непонятно.
источник

SK

Stanislav Kirillov in catboost_ru
Жду вопросов про то, что не понятно 🙂
источник

Н

Напыщенное Эго in catboost_ru
Не владею терминологией ML. Фичи-документы это столбцы-строки?
Я просто представляю себе catboost как черный ящик на вход которого подается массив данных, а catboost ищет корреляции.
Когда я говорю "десятки террабайт" я имею ввиду оптимально оцифрованные данные (ну, например, категории это int'ы а не строки)
источник

SK

Stanislav Kirillov in catboost_ru
Фичи-документы это столбцы-строки? - да
источник

CS

Chingiz Shakenov in catboost_ru
Добрый день. Функция cv принемает параметры folds и fold_count. На сколько я понял, folds — это классы из sklearn.model_selection, такие как KFold и др. Если задается параметр folds, fold_count игнорируется?
источник