Телеграмм чат группы catboost

x = pd.read_csv(path,
              sep=sep,
              index_col=index,
              dtype=get_data_types(path, sep=sep, index=index, target=target))


def get_data_types(path, sep='\t', index=None, target=None, n_rows=100):
    data = pd.read_csv(path, sep=sep, index_col=index, nrows=n_rows)

    dtypes = data.dtypes.map({
        np.dtype('int64'): 'int32',
        np.dtype('float64'): 'float32',
        np.dtype('object'): 'category'
    }).to_dict()

    if target:
        dtypes[target] = 'object'

    return dtypes

экономит память и время на повторной конвертации типов

источник

16:07пожаловаться #5

Maxim Khrisanfov in catboost_ru

то есть функция get_data_types читает первые 100 строк датасета смотрим какие там типы

источник

16:08пожаловаться #6

Maxim Khrisanfov in catboost_ru

помогает если датасет гигабайты

источник

16:08пожаловаться #7

Maxim Khrisanfov in catboost_ru

Андрей amber4eg

время на 100 шагов:
всё по 64 бита = 2m 26s
есть int32 = 2m 20s
всё float32 - 2m 18s

по памяти же наверняка выиграл?

источник

16:19пожаловаться #8

Аa

Андрей amber4eg in catboost_ru

Maxim Khrisanfov

по памяти же наверняка выиграл?

ну оно там прыгает сильно в процессе, поэтому сложно сказать. Но вроде да, выиграл

источник

16:19пожаловаться #9

Anna Veronika Dorogush in catboost_ru

Fedor Zaytsev

А можете подсказать на что CatboostEvaluation требует огромное количество места на диске? У меня датасет на ~4гб, делаю evaluation для одной фичи на 5 фолдах и при этом catboost забивает все 25 гигов диска на сервере. Сколько ему нужно тогда места?

@noxoomo подскажешь?

источник

19:41пожаловаться #10

Vasily Ershov in catboost_ru

а что тестируешь? если категориальные фичи, то там модель может занимать много места

источник

19:42пожаловаться #11

2019 February 05

Sasha Zhu in catboost_ru

Привет!
При тестировании модели возникает такая ошибка:

TypeError: Cannot convert 'b'8859030FR'' to float

источник

13:15пожаловаться #12

Sasha Zhu in catboost_ru

Нашла на гитхабе похожее, но не совсем понимаю, в чем причина проблемы

источник

13:15пожаловаться #13

Sasha Zhu in catboost_ru

Может кто-нибудь помочь?

источник

13:15пожаловаться #14

Аa

Андрей amber4eg in catboost_ru

вангую - ты делаешь предикт моделью, которую считал с диска. В той модели категориальной фичи нет. А в данных, которые подал на вход предикту - есть.

источник

13:17пожаловаться #15

Sasha Zhu in catboost_ru

Андрей amber4eg

неа

источник

13:18пожаловаться #16

Аa

Андрей amber4eg in catboost_ru

А красивая была версия.
Вот именно так оно ругается именно в такой ситуации.

источник

13:19пожаловаться #17

Sasha Zhu in catboost_ru

Андрей amber4eg

А красивая была версия.
Вот именно так оно ругается именно в такой ситуации.

ладно, ты был прав, не заметила еще одну кат-фичу

источник

13:24пожаловаться #18

Arthur Suilin in catboost_ru

Коллеги, вопрос, как быстро скормить кэтбусту in-memory данные, лежащие в pd.DataFrame?
Если создавать Pool из dataframe, кэтбуст будет идти по нему через DataFrame.itertuples(), что довольно небыстро, т.к. происходит boxing из numpy массивов в Питон, а потом unboxing из Питона в C++.

Если использовать FeaturesData, будет ещё медленнее. У меня все категорийные переменные хранятся в integers (строки просто не влезут в память), а FeaturesData хочет, чтобы все категорийные данные были исключительно питоновскими строками (почему?). В результате имеем тот же boxing-unboxing, ещё и с перерасходом памяти.

Есть какой нибудь способ напрямую скормить числа из numpy?

источник

13:45пожаловаться #19

Аa

Андрей amber4eg in catboost_ru

Sasha Zhu

ладно, ты был прав, не заметила еще одну кат-фичу

sticker.webp

(41.57 Кб)

источник

13:46пожаловаться #20