Телеграмм чат группы catboost

Size: a a a

catboost_ru

553 membersпожаловаться на группу

2019 July 23

Maxim Khrisanfov in catboost_ru

когда классов много конечно не так критично

источник

20:29пожаловаться #1

Sergey P in catboost_ru

Здравствуйте. Мы (команда исследователей) хотим построить синтаксический анализатор русского языка с использованием текстовых корпусов.

Для каждого предложения из файла CoNLL-U мы берём соответствующее дерево, записываем набор морфологических признаков (НМП) слов в вершины (узлы) этого дерева и помечаем рёбра дерева метками, которые являются universal dependency relations.

Данные X_train - это пары наборов морфологических признаков (то есть пары вершин дерева или, что то же самое, рёбра дерева), а соответствующие y_train - метки рёбер (universal dependency relations).

Так что это проблема многоклассовой классификации, все данные являются категориальными.

Мы хотим использовать классификатор CatBoost для этой задачи разметки рёбер деревьев. Возможно ли это для этой задачи?

https://universaldependencies.org/format.html

https://universaldependencies.org/tools.html

https://arborator.ilpga.fr/q.cgi

Фактически мы имеем специфический набор данных, состоящий только из категориальных переменных. X_train - это список кортежей из двух кортежей переменной длины внутри них.

X_train и y_train - нечто вроде

X_train = [(('a', 'b', 'c'), ('b', 'd')), (('d', 'c'), ('b', 'a')), (('a', 'c', 'd'), ('a', 'b')), (('a', 'c', 'd'), ('b', 'a', 'c')), (('a', 'b'), ('c', 'a', 'd'))],

y_train = ['p', 'q', 'r', 'q', 'p'].

Я не могу применить CatBoost к своим данным, я не понимаю, как использовать cat_features с моим набором данных.

источник

20:34пожаловаться #2

Sergey P in catboost_ru

Sergey P in catboost_ru

2019 July 24

Igor Petrov in catboost_ru

Oleg Shapovalov

Не ожидал, что установка весов сильно снизит скорость обучения. Еще не хочется вас увести в неправильную сторону 🙂 Так что я бы попросил прокомментировать разработчиков catboost, как тут правильно поступить (вообще я все еще думаю, что повышать recall странная затея)

За 17 часов выучелось. Мне интресно как подбирать веса теперь, во сколько раз их болше брать? Во сколько раз меньше класса во столько брать?
Как я смотрю это использовать ансамбль.

источник

05:34пожаловаться #5

Oleg Shapovalov in catboost_ru

"Во сколько раз меньше класса во столько брать?" - вот это выглядит логично

источник

08:12пожаловаться #6

Igor Petrov in catboost_ru

Oleg Shapovalov

"Во сколько раз меньше класса во столько брать?" - вот это выглядит логично

Под мою задачу подходит хорошо ансамбль из трех моделей.
1. Во сколько раз меньше класса во столько брать
2. Во сколько раз меньше класса во столько брать / 2
3. Без весов

В catboost есть, что-то для работы с ансамблями, типа объдинение моделей (как на tensorflow например)?

источник

08:16пожаловаться #7

Oleg Shapovalov in catboost_ru

не слышал о таком

источник

08:19пожаловаться #8

Igor Petrov in catboost_ru

@OShapovalov спасибо

источник

08:24пожаловаться #9

Igor Petrov in catboost_ru

@annaveronika как я понял реализован интерейс для .Net Core?
https://github.com/catboost/catboost/issues/409

GitHub

Mainstreaming c# exporter · Issue #409 · catboost/catboost

I trying to implement model import to C# I already done quick and dirty float-only exporter (from c++), cat features still to-do. Tested some model, outputs are same in comparison with reference ru...

источник

10:22пожаловаться #10

Stanislav Kirillov in catboost_ru

Под линуксом не пробовали даже, так что не факт что будет работать в коре

источник

10:23пожаловаться #11

Stanislav Kirillov in catboost_ru

А у вас .net core?

источник

10:24пожаловаться #12

Stanislav Kirillov in catboost_ru

Кстати, применялка gpu готова, пока без переключения устройств работает из c api, можете пробовать

источник

10:25пожаловаться #13

Igor Petrov in catboost_ru

Stanislav Kirillov

А у вас .net core?

да

источник

10:25пожаловаться #14

Igor Petrov in catboost_ru

либу как я понял руками собирать? в nuget не залили

источник

10:26пожаловаться #15

Stanislav Kirillov in catboost_ru

Ага

источник

10:26пожаловаться #16

Igor Petrov in catboost_ru

Stanislav Kirillov

Ага

спасибо

источник

10:27пожаловаться #17

Anna Veronika Dorogush in catboost_ru

Сегодня вышел новый релиз CatBoost 0.16. В нем реализованы применение на GPU, быстрая реализация GridSearch и RandomSearch, новые метрики и ускорения. Используйте!

источник

10:27пожаловаться #18

Аa

Андрей amber4eg in catboost_ru

И get_all_params! 👻

источник

11:14пожаловаться #19

Anna Veronika Dorogush in catboost_ru

Андрей amber4eg

И get_all_params! 👻

За него спасибо @dpolyak

источник

11:15пожаловаться #20