Size: a a a

2020 May 09

AA

Andrey Andreev in catboost_ru
Vitaliy Malcev
подскажите есть какие-то встроенные функции по работе с временными рядами? на небольших базах сьедает datetime столбик, сам с ним разбирается как-то и выдает норм результат, но как только добавляю еще 300фичей ругается что не может работать с временными данными
Присоединяюсь к вопросу. И хотелось бы больше возможностей по работе с временными рядами вообще
источник

MF

Maxim FromSiberia in catboost_ru
Добрый день! У меня большое обучающее множество (сотни миллионов строк). Приходится долго ждать, пока алгоритм обучится. Посоветуйте, пожалуйста, как ускорить процесс обучения с минимальными потерями в точности. Или может есть гайд на эту тему. Спасибо.
источник

NT

Nikolay Tolstov in catboost_ru
Есть гайд на сайте, поищите это не сложно
источник

AK

Andrei Khropov in catboost_ru
Maxim FromSiberia
Добрый день! У меня большое обучающее множество (сотни миллионов строк). Приходится долго ждать, пока алгоритм обучится. Посоветуйте, пожалуйста, как ускорить процесс обучения с минимальными потерями в точности. Или может есть гайд на эту тему. Спасибо.
GPU используете?
источник
2020 May 11

MF

Maxim FromSiberia in catboost_ru
На сервере OS Windows Server 2012 R2 64bit стоит видео-карта Nvidia Quadro K4000. С сайта nvidia.com скачен и установлен драйвер 441.66-quadro-desktop-notebook-win8-win7-64bit-international-whql.exe. При запуске команды

catboost-0.23.exe fit -f train.csv --cd train.cd --delimiter , --loss-function Logloss -i 1000 --task-type GPU --train-dir trdir

получаю

(class TCatBoostException) c:/program files (x86)/go gent/pipelines/buildmaster
/catboost.git/catboost/cuda/cuda_lib/cuda_base.h:281: CUDA error 999: unknown error

Подскажите, пожалуйста, куда дальше копать.
источник

SK

Stanislav Kirillov in catboost_ru
Надо понять какое именно ядро упало
источник

SK

Stanislav Kirillov in catboost_ru
Можешь запустить по cuda memcheck для начала?
источник

MF

Maxim FromSiberia in catboost_ru
Stanislav Kirillov
Можешь запустить по cuda memcheck для начала?
У меня нет опыта в GPU и CUDA. Подскажи, пожалуйста, точнее, как это сделать.
источник

SK

Stanislav Kirillov in catboost_ru
Да, доберусь до компа с виндой и пришлю команду
источник

DU

Daniil Udimov in catboost_ru
Добрый день!

Я пытаюсь добавить свою функцию потерь по инструкции https://catboost.ai/docs/concepts/python-usages-examples.html#user-defined-loss-function

При этом я беру оттуда пример кода для RmseObjective и использую его:
model = CatBoostRegressor(loss_function=RmseObjective())
model.fit(X=X, y=y)
При этом я получаю ошибку:
CatBoostError: catboost/private/libs/target/data_providers.cpp:325: No metrics specified


Кто-нибудь пробовал добавлять свои функции потерь? Можете подсказать, в чём ошибка?
источник
2020 May 12

IL

Ivan Lyzhin in catboost_ru
Укажи дополнительно eval_metric='Rmse' например
источник

TN

Timur Nurlygayanov in catboost_ru
Всем привет, хочу сделать бинарную классификацию объектов, свойства которых - два числовых ряда. Можно ли и как их правильно передать в классификатор? (то есть, например, объект A([0, 1, 2, 3, 5, 8], [30, 40 50]) ) ?
источник

E

Edya in catboost_ru
Коллеги, немного оффтопа.
Пытаюсь решить задачу кластеризации для данных с тремя колонками: пользователь - сайт - кол-во заходов
Решение в лоб: сделать пивот сайтов в колонки не совсем подходит из-за того, что колонок становится слишком много (на этом датасете сделать k-means или dbscan).

Существуют сейчас какие-то подходы/библиотеки, которые позволяют кластеризовать данные в таком формате? Возможно, есть что-то что умеет обходиться без вектора одинаковой длинны?
источник

A

Algorc in catboost_ru
Edya
Коллеги, немного оффтопа.
Пытаюсь решить задачу кластеризации для данных с тремя колонками: пользователь - сайт - кол-во заходов
Решение в лоб: сделать пивот сайтов в колонки не совсем подходит из-за того, что колонок становится слишком много (на этом датасете сделать k-means или dbscan).

Существуют сейчас какие-то подходы/библиотеки, которые позволяют кластеризовать данные в таком формате? Возможно, есть что-то что умеет обходиться без вектора одинаковой длинны?
За фоффтоп могут и забанить, но можно посмотреть на данные как на задачу о разложении матрцы.
И каким-то методом получить embeding`и для сайта и для пользователя.
их к количеству заходом добавить и это в кластеризацию уже.
источник

ИБ

Иван Брагин... in catboost_ru
Ещё вариант представить в виде графа и попробовать выделить communities
источник

ИБ

Иван Брагин... in catboost_ru
Кстати на Ютубе Яндекс разработка сейчас доклад по кэтбусту начнется
источник

AY

Alexey Yurasov in catboost_ru
Иван Брагин
Кстати на Ютубе Яндекс разработка сейчас доклад по кэтбусту начнется
Не нашел. На канале объявлений нет.
источник

М

Максим in catboost_ru
Alexey Yurasov
Не нашел. На канале объявлений нет.
источник

AY

Alexey Yurasov in catboost_ru
Спасибо
источник

AS

Alexsey Shestacov in catboost_ru
огонь
источник