Size: a a a

2019 August 20

AD

Anna Veronika Dorogush in catboost_ru
Мы про применение скоро пост подробный напишем, а то много у кого вопросы
источник

AD

Anna Veronika Dorogush in catboost_ru
multi-label классификацию пока что не планируем, а мульти-регрессию, когда несколько таргетов, планируем добавить.
источник

S⚠

Stanislav ⚠️ in catboost_ru
Ребят, поделитесь кейсами реального применения кэтбуста в ваших проектах за исключением того как он используется в самом яндексе
источник

V

Viktor in catboost_ru
Stanislav ⚠️
Ребят, поделитесь кейсами реального применения кэтбуста в ваших проектах за исключением того как он используется в самом яндексе
да там же где и тот же lightgbm & xgboost
отличие мб в том, что с коробки сразу норм и есть отдельная обработка категориальный фичей.
источник

S⚠

Stanislav ⚠️ in catboost_ru
Это понятно. Просто интересно реальные кейсы послушать и направления
источник

S⚠

Stanislav ⚠️ in catboost_ru
Например я сейчас использую random forest классификатор от склерн, обученный на сравнительно небольшом датасете. Модель трансформируется в си код и встраивается в проект движка. Движок - анализатор малвари.
Сейчас собирается более плотный датасет порядка 100к чистых и малварных семплов. Хочу попробовать катбуст на нем.
источник
2019 August 21

V

Viktor in catboost_ru
Stanislav ⚠️
Например я сейчас использую random forest классификатор от склерн, обученный на сравнительно небольшом датасете. Модель трансформируется в си код и встраивается в проект движка. Движок - анализатор малвари.
Сейчас собирается более плотный датасет порядка 100к чистых и малварных семплов. Хочу попробовать катбуст на нем.
пробуйте и поделитесь плз результатами
источник

Аa

Андрей amber4eg in catboost_ru
В одной из предыдущих версий (0.13 вроде бы) был вывод feature importance в виде list of tuples, где каждый tuple имел вид (<feature name>, <feature importance>). Соответственно, в лог оно уходило одной строкой.
К 0.16 это совсем убралив  пользу prettified вывода или я просто потерял нужный метод?
источник

AD

Anna Veronika Dorogush in catboost_ru
можно поставить prettified=False
источник

Аa

Андрей amber4eg in catboost_ru
но тогда я получу только список feature importance, без имён
источник

AG

Artyom Gruzdev in catboost_ru
Blizhnikov Maxim
А сколько минимум нужно строк в датасете,чтобы обучить gbm ?
по Харреллу, для классификации - 200 событий (наблюдений из миноритарного класса зависимой переменной) на переменную. Если обучающая выборка или последовательность из обучающих блоков содержит 10000 событий, 50 переменных, со скрипом проходим. Любое преобразование переменной - считаем переменную за две. Для логрега - 20 событий на переменную.
источник
2019 August 23

Аa

Андрей amber4eg in catboost_ru
они на свет лезут?
источник

SR

Sergey Rúdnev in catboost_ru
Андрей amber4eg
они на свет лезут?
да, по всем чатам гуляет эта картинка
источник

SK

Stanislav Kirillov in catboost_ru
Они еще текст редактируют, прикольно выглядит)
источник

SK

Stanislav Kirillov in catboost_ru
эм, это внешний чатик, тут не про Яндекс специфик вещи спрашивают
источник

OT

Olga Tsvetkova in catboost_ru
Сори
источник
2019 August 25

S⚠

Stanislav ⚠️ in catboost_ru
---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-3-e9c5c4a6d032> in <module>
----> 1 (train_df, test_df) = catboost.datasets.titanic()

c:\users\user\appdata\local\programs\python\python37\lib\site-packages\catboost\datasets.py in titanic()
   116     md5 = '9c8bc61d545c6af244a1d37494df3fc3'
   117     dataset_name, train_file, test_file = 'titanic', 'train.csv', 'test.csv'
--> 118     return _cached_dataset_load_pd(url, md5, dataset_name, train_file, test_file)
   119
   120

c:\users\user\appdata\local\programs\python\python37\lib\site-packages\catboost\datasets.py in _cached_dataset_load_pd(url, md5, dataset_name, train_file, test_file, sep, header)
    89
    90 def _cached_dataset_load_pd(url, md5, dataset_name, train_file, test_file, sep=',', header='infer'):
---> 91     train_path, test_path = _cached_dataset_download(url, md5, dataset_name, train_file, test_file)
    92     return pd.read_csv(train_path, header=header, sep=sep), pd.read_csv(test_path, header=header, sep=sep)
    93

c:\users\user\appdata\local\programs\python\python37\lib\site-packages\catboost\datasets.py in _cached_dataset_download(url, md5, dataset_name, train_file, test_file)
    81         os.close(file_descriptor)
    82         try:
---> 83             _cached_download(url, md5, file_path)
    84             _extract(file_path, dir_path)
    85         finally:

c:\users\user\appdata\local\programs\python\python37\lib\site-packages\catboost\datasets.py in _cached_download(url, md5, dst)
    56             logger.debug('failed to download from %s', u)
    57     else:
---> 58         raise RuntimeError('failed to download from %s', urls)
    59
    60     dst_md5 = _calc_md5(dst)

RuntimeError: ('failed to download from %s', ('https://storage.mds.yandex.net/get-devtools-opensource/233854/titanic.tar.gz',))
источник

S⚠

Stanislav ⚠️ in catboost_ru
ребят, из за чего на оригинальном туториале катбуса может такое выходить при загрузке датасета (любого)
источник

S⚠

Stanislav ⚠️ in catboost_ru
(train_df, test_df) = catboost.datasets.amazon()
источник

Аa

Андрей amber4eg in catboost_ru
У тебя банально это урл открывается?
источник