Size: a a a

Machine learning

2021 January 26

С

Сергей in Machine learning
Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
источник

ЕО

Егор Овчинников... in Machine learning
Вопрос: У вас есть две модели. Одна модель дает ROC-AUC=0.2, вторая 0.3. Какую вы выберете и почему?
источник

SS

Sergey Salnikov in Machine learning
~1
источник

T

Tim in Machine learning
Сергей
Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
Может тут кластеризация подойдёт?
источник

С

Сергей in Machine learning
Tim
Может тут кластеризация подойдёт?
Да, я тоже сейчас об этом думаю, если например есть 3 точки рядом и все плохие, то и в окрестностях скорее всего можно лишний раз не рыскать, особенно в пространстве между точками, если скажем пара точек выбивается из общей массы, то их в принципе можно опустить либо побегать по окрестностям, чтобы человек оценил их рейтинг и затем давать более точные результаты

Например если много точек в группе хороших - то скорее и окрестностях выше вероятность хороших точек
И чем больше оценено точек в окрестности - то вес такого прогноза по идее должен быть выше
источник

С

Сергей in Machine learning
По поводу первичной кластеризации сейчас думаю, наверное стоит строить что-то вроде бинарного дерева

Где делить на группы из 4 свойств
Тогда будут свойства (1,2,3,4) и (5,6,7,8) например и первые точки отсчёта это либо все min либо max в группе

Так же можем узнать среднее значение, чтобы заранее понимать диапазон в каждой такой группе

Только это наверное не классическая кластеризация будет, но количество элементов для оценки должно сократиться

И скажем каждую новую точку будет проще определить к одной или другой группе, а уже там внутри пробовать делать полноценную кластеризацию

может не самое идеальное решение, но задача хотя бы хоть сколько нибудь реализуемой будет выглядеть
источник

GW

Green Wizard in Machine learning
@ess130 а что уже пробовал? или пока ничего, морально готовишься?
источник

С

Сергей in Machine learning
Пока только думаю что с этим делать и на сколько это всё рационально
источник

i

igor in Machine learning
Егор Овчинников
Вопрос: У вас есть две модели. Одна модель дает ROC-AUC=0.2, вторая 0.3. Какую вы выберете и почему?
0.2 конечно, меняем классы и у нас 0.8)
источник

ЕО

Егор Овчинников... in Machine learning
igor
0.2 конечно, меняем классы и у нас 0.8)
Супер! Спасибо!
источник

GW

Green Wizard in Machine learning
Сергей
Пока только думаю что с этим делать и на сколько это всё рационально
- смотреть данные, вдруг они уже могут хорошо лечь на автоматические методы  класстеризации

- итеративное наращивание датасета, мне кажется, вполне рациональным тут (разметили 100 сэмплов - обучили - прогнали по 1000 - посмотрели где самые большие ошибки - разметили их - обучили модель - и т.д.)

- если повезёт, то таким образом получим модель способную в автом. режиме разметить ещё часть данных... так же, можно попробовать обучить чот типа дискриминатора, чтоб отделять уже знакомые данные от абсолютню  новых

- поиграть с размерностями (может можно сжать их, либо же ввести доп., тем же RBF)

сорри за общие советы.... я не из гуру, по нику датасеты не узнаю)
источник

С

Сергей in Machine learning
В самом деле даже за такие советы большое спасибо, я кроме алгебры и статистики в самом деле нифига не знаю и мнение опытных людей все таки имеет больший вес, как минимум стоит прислушаться :)))
источник

GS

Gennady Shtekh in Machine learning
Сергей
Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
Не майтесь.

Пройдите первые 2 курса этой специализации, разметьте в том же экселе случайный (!) набор из пары тысяч элементов (или хотя бы приблизьтесь к этому числу, пока совсем не устанете размечать), потом примените SVM какой-нибудь по всем правилам с отложенной выборкой, проанализируйте ошибки, дальше уже думать, хватит вам такой точности ответа или нет.

На кластеризацию и ручные правила, как вы выше написали, боюсь, уйдет тоже времени немало, а результат далеко не гарантирован. Хоть процесс может получиться и увлекательным. :)
источник

VK

Vasil K in Machine learning
Сергей
Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
umap + hdbscan
источник

GS

Gennady Shtekh in Machine learning
Gennady Shtekh
Не майтесь.

Пройдите первые 2 курса этой специализации, разметьте в том же экселе случайный (!) набор из пары тысяч элементов (или хотя бы приблизьтесь к этому числу, пока совсем не устанете размечать), потом примените SVM какой-нибудь по всем правилам с отложенной выборкой, проанализируйте ошибки, дальше уже думать, хватит вам такой точности ответа или нет.

На кластеризацию и ручные правила, как вы выше написали, боюсь, уйдет тоже времени немало, а результат далеко не гарантирован. Хоть процесс может получиться и увлекательным. :)
То, что предложил коллега выше с итеративным подходом — разумно. Но реализовать правильно без подобного опыта будет сложно. Сложность в том, по каким принципам выбирать следующие примеры для обучения. Очевидные решения не всегда оптимальные в данной задаче, к сожалению.
В целом класс таких решений называется active learning.
источник

С

Сергей in Machine learning
Vasil K
umap + hdbscan
Спасибки :))))
источник

С

Сергей in Machine learning
Gennady Shtekh
То, что предложил коллега выше с итеративным подходом — разумно. Но реализовать правильно без подобного опыта будет сложно. Сложность в том, по каким принципам выбирать следующие примеры для обучения. Очевидные решения не всегда оптимальные в данной задаче, к сожалению.
В целом класс таких решений называется active learning.
Ну и вам тоже спасибки за трезвый взгляд :))))
источник

K

K-S in Machine learning
Юрий
Блин, такое, конешн. Во что тогда врываться?) С адекватными сроками сейчас только CV во всяких медицинских приложениях, что-то не очень интересно, табличек нет, таймсериес нет, RL прозевал😂
источник

DP

Dmitry Penzar in Machine learning
Сергей
Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)
Можно пробовать Active learning. Набрать выборку из 1000, отсмотреть. Обучить зоопарк моделей. Посмотреть  где этот зоопарк более всего неуверен. Взять 100 записей, где более всегг неуверен - отсмотреть. И тд. Пока не устраивает качество.
источник

DP

Dmitry Penzar in Machine learning
А, уже написали коллеги
источник