Size: a a a

Data Science Chat

2021 September 27

D

Dmitry in Data Science Chat
Нужно сетку тренировать только с категориями или можно все данные добавить?
источник

A

Andrey in Data Science Chat
а зачем их в xgb потом? сразу сетку и тренируйте. embedding layer для категормальных, и второй вход для континуальных
источник

OS

Oleg Shapovalov in Data Science Chat
А зачем вообще сетка, когда адекватные бустинги отлично работают с категориями?
источник

D

Dmitry in Data Science Chat
если категорий 4000-5000, то не очень уже справляются
источник

OS

Oleg Shapovalov in Data Science Chat
CatBoost не справляется? 4-5к это ж немного
источник

D

Dmitry in Data Science Chat
буду пробовать, но табнет оттюненный не дотягивает до дефолтного кетбуста
источник

D

Dmitry in Data Science Chat
справляется — понятие относительное ) есть вероятность, что можно сделать лучше
источник

P

Polina in Data Science Chat
Здравствуйте, кто может помочь с Лабораторной «Алгоритмы распознавания образов» (Python или Матлаб) напишите в лс пожалуйста
источник

A

Andrey in Data Science Chat
табнет так себе сетка
источник

D

Dmitry in Data Science Chat
а какие есть альтернативы? тема интересная
источник

A

Andrey in Data Science Chat
fully connected, без шуток. иногда даже cnn/rnn, в зависимости от природы данных, но я обычно с fc начинаю, минимум в половине случаев ими и заканчиваю.

если данных мало - делаю синтетику
источник

s

sasha in Data Science Chat
кстати интересная тема про синтетику, можешь чуть рассказать про методы и что это даёт на практике
источник

D

Dmitry in Data Science Chat
+
источник

A

Andrey in Data Science Chat
обычно это творчество сильно под задачу.

варианты, которые я пробовал - это CVAE (сложно и опять же данные нужны хотя бы несколько тысяч, и результаты не очень, свой шум там), потом пробовал сохраняя таргет подменять фичи на те что из датасетах, на основе эвристик из просмотра глазами сотни сэмплов, это лучше способ. еще вариант - модельные данные с небольшими шумами, примешивать в датасет (коэффициенты для моделирования можно из байесовских методов доставать, типа pymc3). проблема тут что достаточно мощный мл конечно разгадает формулу, но, зная, модельный сэмпл или нет, заюзав это как фичу, один раз удалось докинуть скора (регрессия).

в последний раз надо было у случайного процесса идентифицировать 4 параметра (модель хестона если кто знает). там синтетику получить легко, нагонял на ней сетку, потом уже на реальном процессе извлек параметры. сетка научилась по метрикам плохо... но кривые выдаёт чуть ли не совпадающие.
источник

A

Andrey in Data Science Chat
источник

s

sasha in Data Science Chat
а в целом в какой момент используешь синтетику, когда данных не хватает? не совсем понимаю просто как именно это помогает решать задачи
источник

A

Andrey in Data Science Chat
я пользуюсь или линейки обычно или сетками, наверное по привычке. а их количество данных хорошо регуляризует.
источник

s

sasha in Data Science Chat
а зависимости между фичами тоже моделируются при синтезе?
источник

A

Andrey in Data Science Chat
как повезёт, зависит от метода. если байесом сначала модель подогнать, там можно чудить всякие иерархии, если тот что я выше описывал недобутстрап - там нет конечно...

я не сказать что сильно часто так делаю. пытаюсь обычно если данных < 2-3 тысяч
источник

A

Andrey in Data Science Chat
сегодня с текстами приседал. таргет по дням, а фичи эмбеддинги текстов за день. не деньги)) другие показатели)) думал как сделать синтетику - пока вот пробую дропать что-то из текстов. метод так себе, ну и скор пока не докинул
источник