Телеграмм чат группы bigdata_ru страница 2522

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4737 membersпожаловаться на группу

2021 February 22

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Просто не понимаю как датасет для алгоритмов мл соотносится с выборками зависимыми или независимыми , я смотрел пример только для пациентов (в интернете)

источник

11:46пожаловаться #1

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Я понимаю что можно пациентов разбить на две группы: до и после.
Но как разбить данные датасета для машинного обучения ?

Если например у меня есть задачи бинарной классификации на 400 строках, и в одном классе 100 строк, в другом классе 300 строк, то значит мне нужно взять одну выборку состоящую из 100 строк и вторую выборку тоже состоящую из 100 строк ? И типо это можно назвать до и после выборки ? И мне нужно будет много раз делать такие выборки ? Мне нужно сначала рассчитать необходимый объем выборки? Я запутался....

источник

12:12пожаловаться #2

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Я хочу чтобы мое исследование было достоверным

источник

12:12пожаловаться #3

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Я понимаю что можно пациентов разбить на две группы: до и после.
Но как разбить данные датасета для машинного обучения ?

Если например у меня есть задачи бинарной классификации на 400 строках, и в одном классе 100 строк, в другом классе 300 строк, то значит мне нужно взять одну выборку состоящую из 100 строк и вторую выборку тоже состоящую из 100 строк ? И типо это можно назвать до и после выборки ? И мне нужно будет много раз делать такие выборки ? Мне нужно сначала рассчитать необходимый объем выборки? Я запутался....

Читай про стратификацию

источник

12:13пожаловаться #4

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Evgenii Zheltonozhskii🇮🇱

Читай про стратификацию

Да, это знаю что такое, типо нужно в пропорциях сделать выборку из генеральной совокупности: 900 муж и 100 жен, значит выборка будет из 90 муж и 10 жён, и по принцип рандомизации выполняется

источник

12:16пожаловаться #5

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Я хочу чтобы мое исследование было достоверным

Нужны чёткие определения .
В чём именно заключается исследование, и что значит, что оно "достоверное"?

источник

12:47пожаловаться #6

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Нужны чёткие определения .
В чём именно заключается исследование, и что значит, что оно "достоверное"?

Достоверное , значит дизайн исследования и методы выбраны правильно, что выборка репрезентативная и все посчитано правильно

источник

12:53пожаловаться #7

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Достоверное , значит дизайн исследования и методы выбраны правильно, что выборка репрезентативная и все посчитано правильно

Что значит "правильно"?)

источник

12:54пожаловаться #8

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Что значит "правильно"?)

Без ошибок в Арифметике и правильными методами

источник

12:54пожаловаться #9

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Без ошибок в Арифметике и правильными методами

Что значит "правильные методы"?

источник

12:55пожаловаться #10

СВ

Сергей Васильев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а что это за виз?

Plotly, интерактивные графики для веба

источник

13:03пожаловаться #11

JR

Jürgen Romins in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Dash+plotly хороши. Dash вообще для ленивых))

источник

13:04пожаловаться #12

DK

Danil Kalinin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Всем привет!
Допустим есть triplet-loss нейронка, которая обучена на некотором датасете (допустим лица). Она у нас работает, в бд пишем ембеддинги, потом классифицируем объекты допустим по knn. Затем мы захотели улучшить нашу сетку (нашли еще 1 датасет) и смешав вместе со старым обучили. Как теперь сделать преобразование старых ембеддингов в новые, если исходных данных нет?

источник

13:15пожаловаться #13

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Что значит "правильные методы"?

Это значит что статистический критерий выбран правильно

источник

13:19пожаловаться #14

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Это значит что статистический критерий выбран правильно

Блин, я тебя четыре раза переспрашиваю, и ты слово "правильно" объясняешь через "правильно" 🤔

источник

13:22пожаловаться #15

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Всем привет!
Допустим есть triplet-loss нейронка, которая обучена на некотором датасете (допустим лица). Она у нас работает, в бд пишем ембеддинги, потом классифицируем объекты допустим по knn. Затем мы захотели улучшить нашу сетку (нашли еще 1 датасет) и смешав вместе со старым обучили. Как теперь сделать преобразование старых ембеддингов в новые, если исходных данных нет?

Лучше всего добыть исходные данные. Ведь раз новая нейронка лучше старой, то старая или теряла какую-то информацию, или добавляла туда какой-то шум. А значит, новые эмбеддинги, сваренные из старых, получатся не очень хорошими.

Но если всё-таки очень хочется, можно отдельно обучить простую нейронку (типа пара полносвязных слоёв), которая по старым эмбеддингам предсказывает новые.

источник

13:24пожаловаться #16

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Блин, я тебя четыре раза переспрашиваю, и ты слово "правильно" объясняешь через "правильно" 🤔

Ну и что )

источник

13:30пожаловаться #17

SL

Sergey L in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Видимо, вам теперь не особо будут подсказывать😁

источник

13:36пожаловаться #18

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Ну и что )

AI фигня, тут нет точности, делается все эмпирически и потом люди себя успокаивают с помощью ablation study. Репрезентативная выборка как и все прочее субъективные понятия, которые сильно зависят от эксперимента.

источник

13:44пожаловаться #19

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Это значит что статистический критерий выбран правильно

Статистический критерий выбран правильно значит выбран под определенную задачу и под определенные переменные. Есть таблица в медицинской статистике с рекомендациями. Я на нее опираюсь.

источник

13:52пожаловаться #20