Size: a a a

Data Science Chat

2021 September 07

S

Somebody in Data Science Chat
А еще, я просто уверен, стоить это будет офигеть как дорого, а профита не так много
источник

A

Artyom in Data Science Chat
А что, тренировка сети для такой задачи много ресурсов сожрёт?
источник

A

Artyom in Data Science Chat
А сколько кстати данных надо для разметки и кто этим будет заниматься?)
источник

AK

Alexander Kuznetsov in Data Science Chat
??
источник

Н

Николай in Data Science Chat
Кто нибудь видел классификацию метод машинного обучения по следующим трём параметрам:
1) устойчивость к шуму по параметрам модели

то есть малое изменение данных не ведёт к большим изменениям параметров модели

2) структурная устойчивость к шуму

Малое изменение к данных не приводит к сильному изменению структуры модели

3)  устойчивость  интерпретации
Малое изменение к данных не приводит к сильному изменению результатов интерпретации модели методом lime, shap
источник
2021 September 08

s

sasha in Data Science Chat
1 и 2 на обучении?
источник

D

Dmitry in Data Science Chat
всем привет
у кого-то был опыт назначения весов семплам для регрессии?
есть идея поощрять семплы с более качественной инфой более высоким весом и наказывать семплы с пропущенными данными более низким
источник

D

Dmitry in Data Science Chat
как я понимаю, принцип должен был такой:
1) если модель плохо работает на семпле с качественными данными — мы наказываем её сильнее, увеличивая loss, умножая на высокий вес сэмпла
2) если модель плохо сработала на семпле с плохими данными, то мы сильно её за это не ругаем, умножая loss на 1 или, может, на значение меньше 1
имеет такая теория право на жизнь? в классификации веса юзают активно как по классам, так и по семплам, а вот по регрессии особо инфы не нашел
источник

s

sasha in Data Science Chat
вообще тема очень интересная, всегда неприятное чувство когда от небольшого изменения сильно меняется выход.
источник

s

sasha in Data Science Chat
насколько я понимаю если при подсчете лосса штрафовать за некачественные данные то и модель будет хорошо работать только на качественных. Если это приемлемо то все логично.
источник

D

Dmitry in Data Science Chat
спасибо
в принципе да — задача уменьшить влияние плохих семплов без их полного исключения из сета
источник

s

sasha in Data Science Chat
возможно эффективнее просто убрать некачественные данные.
источник

S

Somebody in Data Science Chat
Робастность можно достичь некоторой предобработкой данных, в зависимости от задачи
источник

AI

Arslan I in Data Science Chat
Всем привет! Есть ли возможность добавить новое изображение в torchvision.datasets.ImageFolder?
источник

Н

Николай in Data Science Chat
То есть правильно я понимаю
что Вы предполагаете что проблема может быть только в плохих данных.

И все основные алгоритмы ML устойчивы
к изменению данных.

Метрика же насколько изменение исходных данных может приводит к изменению параметров модели и структуры модели не проверяется.
источник

s

sasha in Data Science Chat
не правильно, я не знаю насколько они устойчивы. Могу предположить что линейные модели обладают более высокой устойчивостью по сравнению с деревьями, ориентируясь на форму разделяющей поверхности. Но чего то более конкретного в голову не приходит.
источник

Н

Николай in Data Science Chat
Спасибо большое.
Как я знаю просто устойчивость
не проверяется.

Требование устойчивости можно достичь
внося некоторые изменённые данные которые должны давать тот же результат
если это конечно это можно делать в рамках модели.
Но такое не всегда делается так как это может потребовать больших доп вычислений.

Метод в которых модели  заведомо устойчивы к малому изменению я к сожалению не слышал.
Говорится только что нейро сетки можно обмокнуть с помощью небольшого шума, но это никого сейчас сильно не беспокоит.

GAN должны быть более устойчивы так как там схема просто предусматривает это.

SVT , линейные и ближайших соседей кажутся достаточно устойчивыми.
источник

AK

Alex K in Data Science Chat
Был собес на один комбинат металлургии. Они начали меня спрашивать какие мат модели бы я применил. Начали говорить: можно изотонической регрессией, можно настроить Калмана.

Это вообще что такое. Первый раз такое на собесе вижу. Эконометрический подход что ли. Или это я тупой и не сталкивался просто раньше
источник

SL

Sergey L in Data Science Chat
Не сталкивался прост. Еще могут предложить вариант чего-то порешать на быстрый кейс
источник

AK

Alex K in Data Science Chat
Вот и предложили. И там тип мл вообще не было. А тип мат модели какие-то. Жизнь меня к этому не готовила. Да и не на одном курсе не встречал
источник