Size: a a a

Data Science Chat

2021 October 30

D

Dmitry in Data Science Chat
по категориям метрика accuracy, по числовым — mse, mae, mape
источник

A

Andrey in Data Science Chat
о! ну это очень хорошо! если нет протечек, то везуха. хотя 99% - это обычно протечка)

но хз. если ошибок по коду нет, попробуйте сэмулировать a/b на низлежащих задачах
источник

D

Dmitry in Data Science Chat
а как может протекать в этом случае хотя бы теоретически? Таргета нет в данных, а в нейронке все данные проходят через слой на 512 нейронов.
Ради эксперимента сохранил отдельно выхлоп этого слоя и потом скормил декодеру — 99% так же
источник

D

Dmitry in Data Science Chat
я и сам переживаю насчет того, что где-то что-то упустил )
источник

A

Andrey in Data Science Chat
протекать могло бы теоретически если были бы какие-то связи вход-выход напрямую (как в unet). если нет - считайте свезло, пробуйте downstream таски. как-то детальнее тут сказать сложно.

если хорошо зайдут - ну и хорошо. а вообще откуда нужда во вложениях на табличных данных?

я такое тоже делал, но у меня это редко было интереснее чем напрямую решать классификацию например. с кластеризацией может помочь конечно. но если вложения большие по размерности, все равно будете каким umap скукоживать для визуализации...
источник

D

Dmitry in Data Science Chat
В данном случае — для эксперимента. У меня датасет с категориальными данными большой кардиальности и наличием числовых категорий.
Задача регрессии. Хорошо сработало кодирование категориалок через эмбеддинги (когда просто достаём веса натренированных эмбеддингов). Но наблюдается неслабый оверфит, поэтому еще экспериментирую с автоэнкодером, чтобы исключить попадание таргета при кодировании категориалок.
источник

D

Dmitry in Data Science Chat
Может, вы подскажите по поводу техник кодирования категориальных данных в зависимости от таска? (регрессия, классификация)
Пробовал тот же target encoder, но по нему дикий оверфит, что и понятно. Leave One Out тоже для регрессии не очень может подойти.
Имеет ли смысл пробовать Mixed Effect Models?
источник

ДС

Дмитрий Симаков... in Data Science Chat
Вот если ты говоришь, что категориальные в эмбеддинг слой, то что для них будет в декодере? Почему тогда не говоришь про gumbel-softmax и другие варианты семплирования категориальных признаков? Так-то это все в современных ганах для табличек используется.
источник

A

Andrey in Data Science Chat
я там сказал... ниже по чату)

я ганы в прод не пушу (по разным причинам), поэтому что сказал то сказал. если что есть добавить - я тоже почитаю.

а в целом про вот например cvae я скажем подзабыл. вот его где-то даже и юзал для аналитики.
источник

ДС

Дмитрий Симаков... in Data Science Chat
Ну судя по тому, что я недавно тыкал - у ганов все еще хреново совместные распределения моделируются для табличек.
источник

A

Andrey in Data Science Chat
я хотел про tabnet написать, но из коробки он не очень хорош. тюнить не пытался.
источник

ДС

Дмитрий Симаков... in Data Science Chat
Там же есть селфсупервайзд претрейн, ага. Но с этой стороны на него никогда не смотрел.
источник

D

Dmitry in Data Science Chat
табнет отработал хуже, чем дефолтный lightgbm
источник

D

Dmitry in Data Science Chat
что с претрейном, что без
тюнил не сильно
источник

MC

Makha Cloud in Data Science Chat
источник

PA

Pogos Anesyan in Data Science Chat
Всем привет.

Задача:

Я хочу классифицировать физические упражнения, при этом понимать правильно ли выполняет человек повторение. Если выполняет не правильно, то сообщить, что конкретно неверно сделано (поставьте ноги шире,
приседайте ниже и т.д).

- Можно ли автоматизировать процесс сбора данных, как следствие, сократить количество съёмок. А именно, извлекать положения ключевых точек скелета для каждого повторения из видео, взятых из Интернета. (т. е. модель сама понимает, когда действие началось и когда оно закончилось).

- Можно ли вынести вердикт о том, что упражнение выполнено неправильно, если модель обучена только на правильных повторениях (например, координаты точек спины отличаются от положения точек при правильном повторении на определенную величину, как следствие, можно сказать, что спину нужно выпрямить). Или все же стоит собирать данные для каждого неправильного действия.

- Чтобы оценить одно повторение модель должна быть натренирована на дата сете состоящих из повторений в 1 кол - во ?

Можно ли реализовать то, что я описал выше или же есть другие подходы для эффективного решения ?

Спасибо,
С Уважением Погос
источник

SY

Say YAs in Data Science Chat
(input_dim,output_dim = 1) означает,что  на входе и выходе слоя — строка из коэффициентов?
источник

A

Artem in Data Science Chat
Самое главное, чтобы был датасет  с правильными позами, а сравнивать с фотками из видео кажется не очень сложно
источник

SY

Say YAs in Data Science Chat
а,кажется понял на входе/выходе  слоя не обязательно вектор,в общем случае может быть и тензор, а input и output_dim как раз показывают  количество измерений входного/выходного тензора,верно?
источник

PA

Pogos Anesyan in Data Science Chat
А по сравнению можно понять, что было неправильно сделано ?
источник