Size: a a a

2018 December 26

AD

Anna Veronika Dorogush in catboost_ru
Как мы и обещали - в ближайшее время
источник

AD

Anna Veronika Dorogush in catboost_ru
С релизом добавили бенчмарки по ранжированию - сравнение разных режимов разных библиотек на всех опенсорсных датасетах ранжирования, про которые мы знаем.
источник

AD

Anna Veronika Dorogush in catboost_ru
https://github.com/catboost/benchmarks/tree/master/ranking - вот тут можно посмотреть.
источник

AD

Anna Veronika Dorogush in catboost_ru
https://github.com/catboost/catboost/releases/tag/v0.12.0 - а вот тут описание того, что добавилось в релиз
источник

AS

Alexsey Shestacov in catboost_ru
Нашел сломанную ссылку на тутроиал, отправил пулл реквест https://github.com/catboost/benchmarks/pull/9
источник

AD

Anna Veronika Dorogush in catboost_ru
Спасибо!
источник

AS

Alexsey Shestacov in catboost_ru
неужели в каждом мержде нужно писать CLA
источник

AS

Alexsey Shestacov in catboost_ru
я уже писал вроде...
источник

AD

Anna Veronika Dorogush in catboost_ru
возможно, можно один раз это сделать, точно напишем завтра
источник

AD

Anna Veronika Dorogush in catboost_ru
но у нас пока нет автоматической проверки, что ты это уже делал
источник

AD

Anna Veronika Dorogush in catboost_ru
поэтому нам удобнее, если каждый раз пока что...
источник
2018 December 28

OT

Oscar Tempter in catboost_ru
А может кто нибудь подскажет: как обучать модель если дата сет весит уже 23гб и в пандас его уже не удается загрузить
источник

AS

Alexander Sychikov in catboost_ru
Oscar Tempter
А может кто нибудь подскажет: как обучать модель если дата сет весит уже 23гб и в пандас его уже не удается загрузить
Преобразование типов переменных для начала.
источник

OT

Oscar Tempter in catboost_ru
О хороший совет
источник

AD

Anna Veronika Dorogush in catboost_ru
Из файла можно попробовать обучиться
источник

V

Viktor in catboost_ru
Oscar Tempter
А может кто нибудь подскажет: как обучать модель если дата сет весит уже 23гб и в пандас его уже не удается загрузить
можно еще через Vowpal Wabbit
источник

AS

Alexander S in catboost_ru
Viktor
можно еще через Vowpal Wabbit
Факторизационные машины еще хороши, xLearn клевый
источник

VE

Vasily Ershov in catboost_ru
Alexander Sychikov
Преобразование типов переменных для начала.
для катбуста обучаться напрямую, это эффективнее (загрузка 23GB в пандас работает медленно, катбуст загрузи гораздо быстрее. При этом 23GB это не так уж и много данных…)
источник

OT

Oscar Tempter in catboost_ru
Vasily Ershov
для катбуста обучаться напрямую, это эффективнее (загрузка 23GB в пандас работает медленно, катбуст загрузи гораздо быстрее. При этом 23GB это не так уж и много данных…)
Да с катбустом разобрался... Но мне нужна модель из scikit learn, а там я еще не разобрался как из файла данные подавать
источник

OT

Oscar Tempter in catboost_ru
Да, кстати, если кто-то еще столкнется с такой проблемой, то в самом пандасе нашел пару очень полезных параметров:
low_memory : boolean, default True
   Internally process the file in chunks, resulting in lower memory use  while parsing, but possibly mixed type inference.  To ensure no mixed types either set False, or specify the type with the dtype parameter. Note that the entire file is read into a single DataFrame regardless, use the chunksize or iterator parameter to return the data in chunks. (Only valid with C parser)

memory_map : boolean, default False
   If a filepath is provided for filepath_or_buffer, map the file object  directly onto memory and access the data directly from there. Using this option can improve performance because there is no longer any I/O overhead.
источник