Телеграмм чат группы bigdata

Здравствуйте. Начал изучать тему DS не так давно. И сейчас у меня организовался проект, статья. И я хотел бы применить полученные знания. Но задача не такая, о которых пишут на первых страницах. Я хотел бы найти коэффициент «похожести». Т.е. есть категории А, Б, С. Категории А - много данных. И необходимо затем сказать, на сколько похожи данные из категории Б или С на категорию А. Где можно об этом почитать?

Похожесть - величина субъективная. Двух людей можно считать похожими друг на друга, если они похоже выглядят - или если у них похожие занятия - или если похожий характер, например. И всё это разные похожести. Какую именно меру сходства выбрать, должно определяться той финальной задачей, которую вы с помощью этой меры собираетесь решить.

источник

22:16пожаловаться #4

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Похожесть - величина субъективная. Двух людей можно считать похожими друг на друга, если они похоже выглядят - или если у них похожие занятия - или если похожий характер, например. И всё это разные похожести. Какую именно меру сходства выбрать, должно определяться той финальной задачей, которую вы с помощью этой меры собираетесь решить.

мне напоминает то, как сформулировал задачу автор на кластеризацию просто если каждый объект репрезентировать как вектор его свойств.
Разбить на кластеры, далее мерить новые объекты как они близки к тому или иному кластеру.
Грубо говоря. Кластеризация широкая тема, методов много и тд.

источник

22:39пожаловаться #5

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

мне напоминает то, как сформулировал задачу автор на кластеризацию просто если каждый объект репрезентировать как вектор его свойств.
Разбить на кластеры, далее мерить новые объекты как они близки к тому или иному кластеру.
Грубо говоря. Кластеризация широкая тема, методов много и тд.

99% методов кластеризации используют уже готовую функцию расстояния (обычно - Евклидово), поэтому задача выбора метрики должна предшествовать задаче кластеризации, а не наоборот.

источник

22:40пожаловаться #6

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

99% методов кластеризации используют уже готовую функцию расстояния (обычно - Евклидово), поэтому задача выбора метрики должна предшествовать задаче кластеризации, а не наоборот.

согласен. Нужно определить задачу оптимизации.

источник

22:42пожаловаться #7

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

не химик конечно, но судя по тому, что речь о воде, наверное там конечный набор свойств, категориальных, двойственных, сплошных-цифровых, соответственно +- евклидовое с преобразованиями one-hot и т.д.

источник

22:47пожаловаться #8

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

хотя я в кластеризации по-моему использовал евклидовое и каузальное, не спец по метрикам.

источник

22:48пожаловаться #9

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

David Dale

Похожесть - величина субъективная. Двух людей можно считать похожими друг на друга, если они похоже выглядят - или если у них похожие занятия - или если похожий характер, например. И всё это разные похожести. Какую именно меру сходства выбрать, должно определяться той финальной задачей, которую вы с помощью этой меры собираетесь решить.

С точки зрения логики - да. Но в задаче, к сожалению, нет такого параметра, иначе бы задачи не было. Есть некоторый набор ионов, которые содержатся в воде. Есть несколько точек (3), из которых, с течением времени эту воду брали, и проводили замеры концентрации ионов.
Суть в том, что вода влияет на множество других показателей, например на коррозию. И если бы мы смогли сказать, с какой-то долей вероятности, что данная концентрация ионов напоминает нам воду такую-то, то мы могли бы предположить о схожести мер для предотвращения коррозии

источник

23:40пожаловаться #10

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Осложняется задача еще тем, что данных не так много. Из точки А - 3к. А из точек Б и С - по 400.

источник

23:42пожаловаться #11

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Мне показалось, что после обработки данных, удаления выбросов и т.д., я могу попробовать One-class SVM. Таким образом я смогу сказать, лежит ли данная вода в этой категории, или нет.

источник

23:42пожаловаться #12

2021 March 13

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Но вам страстно хочется учить модель?) чем мой вариант не подходит?

источник

00:48пожаловаться #13

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Нет, его я обязательно попробую

источник

01:22пожаловаться #14

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Просто я ещё не совсем понял как это организовать. Потому как нужно же выбрать одну точку от которой измерять расстояние, так ведь? Значит это будет средняя? Медиана?

источник

01:23пожаловаться #15

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Плюсом, у меня 5 параметров. Т.е. нужно считать от этого.

источник

01:23пожаловаться #16

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Пока это первая такая практика, поэтому я и узнаю, налипаю материал для изучения и эксперимента.

источник

01:24пожаловаться #17

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Imdelok

Просто я ещё не совсем понял как это организовать. Потому как нужно же выбрать одну точку от которой измерять расстояние, так ведь? Значит это будет средняя? Медиана?

Если у вас разные свойства воды, то каждому может быть своё решение. Поэтому наверно искать одну ближайшую точку не очень эффективно. Если посчитать расстояния от целевой точки до всех, для которых нам известны параметры и принятые меры, то можно найти ближайшую (с наименьшей скоростью изменения) по каждому параметру и получить принятую меру

источник

01:33пожаловаться #18

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ребят, а где почитать свежие практические рекомендации по выбору количества слоев и нейронов в них для разных типов сетей?

источник

01:35пожаловаться #19

I

Imdelok in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Но нужно же расстояние которое включает сразу все параметры, а не каждый по отдельности

источник

01:35пожаловаться #20