Size: a a a

2019 July 23

MK

Maxim Khrisanfov in catboost_ru
когда классов много конечно не так критично
источник

SP

Sergey P in catboost_ru
Здравствуйте. Мы (команда исследователей) хотим построить синтаксический анализатор русского языка с использованием текстовых корпусов.

Для каждого предложения из файла CoNLL-U мы берём соответствующее дерево, записываем набор морфологических признаков (НМП) слов в вершины (узлы) этого дерева и помечаем рёбра дерева метками, которые являются universal dependency relations.

Данные X_train - это пары наборов морфологических признаков (то есть пары вершин дерева или, что то же самое, рёбра дерева), а соответствующие y_train - метки рёбер (universal dependency relations).

Так что это проблема многоклассовой классификации, все данные являются категориальными.

Мы хотим использовать классификатор CatBoost для этой задачи разметки рёбер деревьев. Возможно ли это для этой задачи?

https://universaldependencies.org/format.html

https://universaldependencies.org/tools.html

https://arborator.ilpga.fr/q.cgi

Фактически мы имеем специфический набор данных, состоящий только из категориальных переменных. X_train - это список кортежей из двух кортежей переменной длины внутри них.

X_train и y_train - нечто вроде

X_train = [(('a', 'b', 'c'), ('b', 'd')), (('d', 'c'), ('b', 'a')), (('a', 'c', 'd'), ('a', 'b')), (('a', 'c', 'd'), ('b', 'a', 'c')), (('a', 'b'), ('c', 'a', 'd'))],

y_train = ['p', 'q', 'r', 'q', 'p'].

Я не могу применить CatBoost к своим данным, я не понимаю, как использовать cat_features с моим набором данных.
источник

SP

Sergey P in catboost_ru
источник

SP

Sergey P in catboost_ru
источник
2019 July 24

IP

Igor Petrov in catboost_ru
Oleg Shapovalov
Не ожидал, что установка весов сильно снизит скорость обучения. Еще не хочется вас увести в неправильную сторону 🙂 Так что я бы попросил прокомментировать разработчиков catboost, как тут правильно поступить (вообще я все еще думаю, что повышать recall странная затея)
За 17 часов выучелось. Мне интресно как подбирать веса теперь, во сколько раз их болше брать? Во сколько раз меньше класса во столько брать?
Как я смотрю это использовать ансамбль.
источник

OS

Oleg Shapovalov in catboost_ru
"Во сколько раз меньше класса во столько брать?" - вот это выглядит логично
источник

IP

Igor Petrov in catboost_ru
Oleg Shapovalov
"Во сколько раз меньше класса во столько брать?" - вот это выглядит логично
Под мою задачу подходит хорошо ансамбль из трех моделей.
1. Во сколько раз меньше класса во столько брать
2. Во сколько раз меньше класса во столько брать / 2
3. Без весов

В catboost есть, что-то для работы с ансамблями, типа объдинение моделей (как на tensorflow например)?
источник

OS

Oleg Shapovalov in catboost_ru
не слышал о таком
источник

IP

Igor Petrov in catboost_ru
@OShapovalov спасибо
источник

IP

Igor Petrov in catboost_ru
@annaveronika как я понял реализован интерейс для .Net Core?
https://github.com/catboost/catboost/issues/409
источник

SK

Stanislav Kirillov in catboost_ru
Под линуксом не пробовали даже, так что не факт что будет работать в коре
источник

SK

Stanislav Kirillov in catboost_ru
А у вас .net core?
источник

SK

Stanislav Kirillov in catboost_ru
Кстати, применялка gpu готова, пока без переключения устройств работает из c api, можете пробовать
источник

IP

Igor Petrov in catboost_ru
Stanislav Kirillov
А у вас .net core?
да
источник

IP

Igor Petrov in catboost_ru
либу как я понял руками собирать? в nuget не залили
источник

SK

Stanislav Kirillov in catboost_ru
Ага
источник

IP

Igor Petrov in catboost_ru
спасибо
источник

AD

Anna Veronika Dorogush in catboost_ru
Сегодня вышел новый релиз CatBoost 0.16. В нем реализованы применение на GPU, быстрая реализация GridSearch и RandomSearch, новые метрики и ускорения. Используйте!
источник

Аa

Андрей amber4eg in catboost_ru
И get_all_params! 👻
источник

AD

Anna Veronika Dorogush in catboost_ru
Андрей amber4eg
И get_all_params! 👻
За него спасибо @dpolyak
источник