Телеграмм чат группы catboost

Можно ли как-то объединить несколько quantized datasets? Для того что бы последовательно заквантовать несколько датасетов и обьединить данные через квантование. Так как объединить через pandas несколько баз потребуется гораздо больше памяти сервера

источник

16:03пожаловаться #4

LS in catboost_ru

Неужели нет возможности обьединить несколько квантований датасетов в один файл?

источник

17:46пожаловаться #5

2021 June 07

Stanislav Kirillov in catboost_ru

Сейчас так нельзя, да

источник

00:00пожаловаться #6

Stanislav Kirillov in catboost_ru

А какой кейс?

источник

00:00пожаловаться #7

Stanislav Kirillov in catboost_ru

Там же нужно чтоб границы квантования фичей были идентичны

источник

00:00пожаловаться #8

LS in catboost_ru

Мультикласс.

источник

00:02пожаловаться #9

LS in catboost_ru

Вот думаю сейчас как обьединить 23 млн из 16 csv, в один файл и заквантовать его, но что то никак не могу найти способ обойти использование огромного количества памяти.

А так конечно было бы здорово что то типа concat quantized dataset

источник

00:07пожаловаться #10

LS in catboost_ru

А что делает save_quantization_boarders? Его нельзя использовать? Я подсмотрел пример на гитхабе, там показано как квантовать eval_set с теми же границами.

А что если заквантовать первый датасет и сохранить boarders, и использовать boarders_finle.name при квантовании остальных датасетов? Можно ли тогда как нибудь обьединить их в один файл?

источник

00:45пожаловаться #11

ИТ

Илья Ткачев... in catboost_ru

Привет, попробовал запустить катбуст ("spark.jars.packages", "ai.catboost:catboost-spark_2.4_2.11:0.26") в спарке
получаю такую ошибку (код из туторила) https://paste.ofcode.org/LqEjMr3hvkG7sWv7Ek39Tq, возможно есть какое-то известное решение?

источник

10:05пожаловаться #12

ИТ

Илья Ткачев... in catboost_ru

при втором перезапуске уже получил другое https://paste.ofcode.org/NrtZnnRq2Qcqk3NDFRVqJH

источник

10:09пожаловаться #13

Andrei Khropov in catboost_ru

> получаю такую ошибку (код из туторила) https://paste.ofcode.org/LqEjMr3hvkG7sWv7Ek39Tq

Так как в ошибке "Connection refused" похоже на проблемы с сетевыми соединениями. Это запуск на локальной машине или распределенном кластере?

> при втором перезапуске уже получил другое https://paste.ofcode.org/NrtZnnRq2Qcqk3NDFRVqJH

Прямо с таким не сталкивался.

Какая версия pyspark и какая версия Spark на кластере? У меня были примеры когда несовместимость версий Scala маскировалась под другие проблемы типа connection refused.

источник

12:14пожаловаться #14

ИТ

Илья Ткачев... in catboost_ru

1) запуск на кластере
2) spark 2.4.4, pyspark такой же соотвественно, скала 2.11 я как раз с соотвествующей версией скалый прикрепил джарник

источник

12:32пожаловаться #15

Alexander V in catboost_ru

Такой вопрос: Какое ограничение у текстовых фич? Можно ли использовать их для ранжирования? Или только классификация пока доступна?

источник

12:45пожаловаться #16

Andrei Khropov in catboost_ru

ок, попробую воспроизвести. А кластер как поднят? standalone, YARN, AWS EMR или еще как-то?

источник

12:47пожаловаться #17

ИТ

Илья Ткачев... in catboost_ru

yarn, отмечу конечно одну особенность, запускал через jupyterhub в kubernetes

источник

12:48пожаловаться #18

Taras B in catboost_ru

Как я понял, только классификация.

источник

14:01пожаловаться #19

Alex Sladkov in catboost_ru

Добрый день.
Скажите, пожалуйста, как при применении модели правильно передавать данные с пропусками в признаках (например, с настройкой nan_mode="Min") через C++ Wrapper API? Или нужно просто заменять пропуски на какую-то константу, которая будет меньше любого из значений из датасета для этого признака?

источник

14:39пожаловаться #20