Size: a a a

2021 June 04

T

Tonya in catboost_ru
Спасибо большое за подробный ответ!
источник

AK

Andrei Khropov in catboost_ru
Да, если что, в локальном CatBoost в Python API класс CatBoostRanker как раз появился в релизе 0.26: https://github.com/catboost/catboost/issues/766
источник

A

Alexander V in catboost_ru
Подскажите, возможно ли у квантизованного пула заменить таргеты без переквантизации фич? Казалось бы почему нет, но не нашёл как именно.
источник
2021 June 06

L

LS in catboost_ru
Можно ли как-то объединить несколько quantized datasets? Для того что бы последовательно заквантовать несколько датасетов и обьединить данные через квантование. Так как объединить через pandas несколько баз потребуется гораздо больше памяти сервера
источник

L

LS in catboost_ru
Неужели нет возможности обьединить несколько квантований датасетов в один файл?
источник
2021 June 07

SK

Stanislav Kirillov in catboost_ru
Сейчас так нельзя, да
источник

SK

Stanislav Kirillov in catboost_ru
А какой кейс?
источник

SK

Stanislav Kirillov in catboost_ru
Там же нужно чтоб границы квантования фичей были идентичны
источник

L

LS in catboost_ru
Мультикласс.
источник

L

LS in catboost_ru
Вот думаю сейчас как обьединить 23 млн из 16 csv, в один файл и заквантовать его, но что то никак не могу найти способ обойти использование огромного количества памяти.

А так конечно было бы здорово что то типа concat quantized dataset
источник

L

LS in catboost_ru
А что делает save_quantization_boarders? Его нельзя использовать? Я подсмотрел пример на гитхабе, там показано как квантовать eval_set с теми же границами.

А что если заквантовать первый датасет и сохранить boarders, и использовать boarders_finle.name при квантовании остальных датасетов? Можно ли тогда как нибудь обьединить их в один файл?
источник

ИТ

Илья Ткачев... in catboost_ru
Привет, попробовал запустить катбуст ("spark.jars.packages", "ai.catboost:catboost-spark_2.4_2.11:0.26") в спарке
получаю такую ошибку (код из туторила) https://paste.ofcode.org/LqEjMr3hvkG7sWv7Ek39Tq, возможно есть какое-то известное решение?
источник

ИТ

Илья Ткачев... in catboost_ru
при втором перезапуске уже получил другое https://paste.ofcode.org/NrtZnnRq2Qcqk3NDFRVqJH
источник

AK

Andrei Khropov in catboost_ru
> получаю такую ошибку (код из туторила) https://paste.ofcode.org/LqEjMr3hvkG7sWv7Ek39Tq

Так как в ошибке "Connection refused" похоже на проблемы с сетевыми соединениями. Это запуск на локальной машине или распределенном кластере?

> при втором перезапуске уже получил другое https://paste.ofcode.org/NrtZnnRq2Qcqk3NDFRVqJH

Прямо с таким не сталкивался.

Какая версия pyspark и какая версия Spark на кластере? У меня были примеры когда несовместимость версий Scala маскировалась под другие проблемы типа connection refused.
источник

ИТ

Илья Ткачев... in catboost_ru
1) запуск на кластере
2) spark 2.4.4, pyspark такой же соотвественно, скала 2.11 я как раз с соотвествующей версией скалый прикрепил джарник
источник

A

Alexander V in catboost_ru
Такой вопрос: Какое ограничение у текстовых фич? Можно ли использовать их для ранжирования? Или только классификация пока доступна?
источник

AK

Andrei Khropov in catboost_ru
ок, попробую воспроизвести. А кластер как поднят? standalone, YARN, AWS EMR или еще как-то?
источник

ИТ

Илья Ткачев... in catboost_ru
yarn, отмечу конечно одну особенность, запускал через jupyterhub в kubernetes
источник

TB

Taras B in catboost_ru
Как я понял, только классификация.
источник

AS

Alex Sladkov in catboost_ru
Добрый день.
Скажите, пожалуйста, как при применении модели правильно передавать данные с пропусками в признаках (например, с настройкой nan_mode="Min") через C++ Wrapper API? Или нужно просто заменять пропуски на какую-то константу, которая будет меньше любого из значений из датасета для этого признака?
источник