Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 February 22

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Просто не понимаю как датасет для алгоритмов мл соотносится с выборками зависимыми или независимыми , я смотрел пример только для пациентов (в интернете)
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я понимаю что можно пациентов разбить на две группы: до и после.
Но как разбить данные датасета для машинного обучения ?

Если например у меня есть задачи бинарной классификации на 400 строках, и в одном классе 100 строк, в другом классе 300 строк, то значит мне нужно взять одну выборку состоящую из 100 строк и вторую выборку тоже состоящую из 100 строк ? И типо это можно назвать до и после выборки ? И мне нужно будет много раз делать такие выборки ? Мне нужно сначала рассчитать необходимый объем выборки? Я запутался....
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я хочу чтобы мое исследование было достоверным
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Я понимаю что можно пациентов разбить на две группы: до и после.
Но как разбить данные датасета для машинного обучения ?

Если например у меня есть задачи бинарной классификации на 400 строках, и в одном классе 100 строк, в другом классе 300 строк, то значит мне нужно взять одну выборку состоящую из 100 строк и вторую выборку тоже состоящую из 100 строк ? И типо это можно назвать до и после выборки ? И мне нужно будет много раз делать такие выборки ? Мне нужно сначала рассчитать необходимый объем выборки? Я запутался....
Читай про стратификацию
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Evgenii Zheltonozhskii🇮🇱
Читай про стратификацию
Да, это знаю что такое, типо нужно в пропорциях сделать выборку из генеральной совокупности: 900 муж и 100 жен, значит выборка будет из 90 муж и 10 жён, и по принцип рандомизации выполняется
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Я хочу чтобы мое исследование было достоверным
Нужны чёткие определения .
В чём именно заключается исследование, и что значит, что оно "достоверное"?
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Нужны чёткие определения .
В чём именно заключается исследование, и что значит, что оно "достоверное"?
Достоверное , значит дизайн исследования и методы выбраны правильно, что выборка репрезентативная и все посчитано правильно
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Достоверное , значит дизайн исследования и методы выбраны правильно, что выборка репрезентативная и все посчитано правильно
Что значит "правильно"?)
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Что значит "правильно"?)
Без ошибок в Арифметике и правильными методами
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Без ошибок в Арифметике и правильными методами
Что значит "правильные методы"?
источник

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Oleg Serikov
а что это за виз?
Plotly, интерактивные графики для веба
источник

JR

Jürgen Romins in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Dash+plotly хороши. Dash вообще для ленивых))
источник

DK

Danil Kalinin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Всем привет!
Допустим есть triplet-loss нейронка, которая обучена на некотором датасете (допустим лица). Она у нас работает, в бд пишем ембеддинги, потом классифицируем объекты допустим по knn. Затем мы захотели улучшить нашу сетку (нашли еще 1 датасет) и смешав вместе со старым обучили. Как теперь сделать преобразование старых ембеддингов в новые, если исходных данных нет?
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Что значит "правильные методы"?
Это значит что статистический критерий выбран правильно
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Это значит что статистический критерий выбран правильно
Блин, я тебя четыре раза переспрашиваю, и ты слово "правильно" объясняешь через "правильно" 🤔
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Danil Kalinin
Всем привет!
Допустим есть triplet-loss нейронка, которая обучена на некотором датасете (допустим лица). Она у нас работает, в бд пишем ембеддинги, потом классифицируем объекты допустим по knn. Затем мы захотели улучшить нашу сетку (нашли еще 1 датасет) и смешав вместе со старым обучили. Как теперь сделать преобразование старых ембеддингов в новые, если исходных данных нет?
Лучше всего добыть исходные данные. Ведь раз новая нейронка лучше старой, то старая или теряла какую-то информацию, или добавляла туда какой-то шум. А значит, новые эмбеддинги, сваренные из старых, получатся не очень хорошими.

Но если всё-таки очень хочется, можно отдельно обучить простую нейронку (типа пара полносвязных слоёв), которая по старым эмбеддингам предсказывает новые.
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Блин, я тебя четыре раза переспрашиваю, и ты слово "правильно" объясняешь через "правильно" 🤔
Ну и что )
источник

SL

Sergey L in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Видимо, вам теперь не особо будут подсказывать😁
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Ну и что )
AI фигня, тут нет точности, делается все эмпирически и потом люди себя успокаивают с помощью ablation study. Репрезентативная выборка как и все прочее субъективные понятия, которые сильно зависят от эксперимента.
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
k k
Это значит что статистический критерий выбран правильно
Статистический критерий выбран правильно значит выбран под определенную задачу и под определенные переменные. Есть таблица в медицинской статистике с рекомендациями. Я на нее опираюсь.
источник