Size: a a a

2021 May 18

SK

Stanislav Kirillov in catboost_ru
то есть всего навсего счетчик по комбинации категориальной фичи f1r9 с бинаризованной флоатной фичей t11-12, где для таргета мы считаем частоту события "таргет больше некоторой границы", при этом априори считаем такую частоту равной 0.5
источник

SK

Stanislav Kirillov in catboost_ru
Катбуст жадно комбинирует катфичи с теми катфичами и бинарными сплитами, что уже попали в дерево. Например, у вас есть катфичи C1, C2, C3, и флоатные фичи F1, F2.
Пускай на первом уровне дерева у вас выбралася бинарный сплит по фиче F2 > 0.3
Тогда на втором уровне мы будем пробовать не только счетчики по одинарным катфичам С1 и С2 но и счетчики по комбинациям: {C1, F2 > 0.3}, {C2, F2 > 0.3}
С этим параметром все довольно просто: это ограничение на максимальную длину кортежа, который может стать ключом при расчете комбинаций. при этом все флоатные и one-hot фичи в этом кортеже всегда занимают одну ячейку: мы делаем бинарный вектор из маркеров исполнимости этих бинарных сплитов.
источник
2021 May 20

AK

Alexey Khrustalev in catboost_ru
Здравствуйте, помогите пожалуйста разобраться с catboost spark. Вот эта строчка: .config("spark.jars.packages", "ai.catboost:catboost-spark_3.0_2.12") выкидывает ошибку Exception: Java gateway process exited before sending its port number. Если скачать файл и указать путь к нему, то ошибка пропадает, но не получается сделать import catboost_spark - пишет, что нет такого модуля. MacOS, Java8, spark 3.0, scala 2.12
источник

AK

Andrei Khropov in catboost_ru
> выкидывает ошибку Exception: Java gateway process exited before sending its port number.

Более подробно ничего не пишет?
источник

AK

Andrei Khropov in catboost_ru
> .config("spark.jars.packages", "ai.catboost:catboost-spark_3.0_2.12")

тут забыта версия, надо

> .config("spark.jars.packages", "ai.catboost:catboost-spark_3.0_2.12:0.25")
источник

AK

Alexey Khrustalev in catboost_ru
Вчера пробовал с версией и без - не работало, сегодня добавил версию обратно - заработало. Магия просто 🙂  Спасибо за ответ!
источник
2021 May 21

AK

Alexey Khrustalev in catboost_ru
Здравствуйте, я снова по поводу pyspark, пытаюсь запустить пример из гитхаба и на строчке model = classifier.fit(trainPool) выдает такую ошибку:
Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last):
 File "/usr/local/opt/apache-spark/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 586, in main
   func, profiler, deserializer, serializer = read_command(pickleSer, infile)
 File "/usr/local/opt/apache-spark/libexec/python/lib/pyspark.zip/pyspark/worker.py", line 69, in read_command
   command = serializer._read_with_length(file)
 File "/usr/local/opt/apache-spark/libexec/python/lib/pyspark.zip/pyspark/serializers.py", line 160, in _read_with_length
   return self.loads(obj)
 File "/usr/local/opt/apache-spark/libexec/python/lib/pyspark.zip/pyspark/serializers.py", line 430, in loads
   return pickle.loads(obj, encoding=encoding)
AttributeError: Can't get attribute '_fill_function' on <module 'pyspark.cloudpickle' from '/usr/local/opt/apache-spark/libexec/python/lib/pyspark.zip/pyspark/cloudpickle/__init__.py'>
В чем может быть причина? Гугл не помог.
источник

AK

Andrei Khropov in catboost_ru
> Гугл не помог

Ну вот мне Гугл выдал первую ссылку https://stackoverflow.com/questions/66746285/koalas-throws-cant-get-attribute-fill-function-on-module-pyspark-cloudpic

Что это связяно с конфликтом версий
источник

AK

Andrei Khropov in catboost_ru
Яндекс, кстати, тоже
источник

TB

Taras B in catboost_ru
@kizill вот этот вопрос актуален, как и вообще вся история с embeding. Как дела там продвигаются?
источник

DF

Dmitry Filin in catboost_ru
Добрый день! В чем может быть проблема с импортом?
Версии spark/scala: 3.0/2.12
источник

AK

Alexey Khrustalev in catboost_ru
Да, это я читал, не вижу конфликта версий в моем случае. Но если других вариантов нет, будем искать
источник
2021 May 22

d

dmitry in catboost_ru
А можно ли узнать количество листьев в каждом из деревьев катбуста?
источник

d

dmitry in catboost_ru
Нашел get_tree_leaf_counts()
источник
2021 May 23

L

LS in catboost_ru
Как быть? 150 классов, одна итерация на дефолтных настройках выполняется около 15 минут. База ~1млн экземпляров. Подождать - плохой совет, так как такая база не одна, в очереди ещё с десяток.

Пол года назад я тестировал catboost  на 15 классов, полёт был нормальный, т.е время/скорость. А сейчас как будто мем какой-то из 2000х, когда демка летает, а ставишь полную версию игры и все работает очень медленно…

Сократить количество классов можно, но все равно их будет около 80.

Можно ли обучать скажем по очереди с 1го по 10й класс, вторая модель с 11го по 20й класс и тд, а потом их объединить? Что бы в конечном итоге получить модель которая знает все 150 классов?
источник

К

Кто-то in catboost_ru
А ты на цпу обучаешь?
источник

К

Кто-то in catboost_ru
Если нет, с такими объёмами однозначно нужно на гпу перейти
источник

К

Кто-то in catboost_ru
Ну, ты всегда можешь попробовать построить такой ансамбль. Ничего не мешает так-то. Но что-то мне подсказывает, что единая модель в данном случае отработает лучше
источник

L

LS in catboost_ru
Цпу)
источник

К

Кто-то in catboost_ru
Можешь залезть в колаб, если не хочешь на своём гпу обучать, но там графиков не будет, увы
источник