Телеграмм чат группы datasciencecourse страница 4705

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Machine learning

7690 membersпожаловаться на группу

2021 January 26

С

Сергей in Machine learning

Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)

источник

02:20пожаловаться #1

ЕО

Егор Овчинников... in Machine learning

Вопрос: У вас есть две модели. Одна модель дает ROC-AUC=0.2, вторая 0.3. Какую вы выберете и почему?

источник

03:37пожаловаться #2

SS

Sergey Salnikov in Machine learning

~1

источник

03:39пожаловаться #3

T

Tim in Machine learning

Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)

Может тут кластеризация подойдёт?

источник

03:56пожаловаться #4

С

Сергей in Machine learning

Может тут кластеризация подойдёт?

Да, я тоже сейчас об этом думаю, если например есть 3 точки рядом и все плохие, то и в окрестностях скорее всего можно лишний раз не рыскать, особенно в пространстве между точками, если скажем пара точек выбивается из общей массы, то их в принципе можно опустить либо побегать по окрестностям, чтобы человек оценил их рейтинг и затем давать более точные результаты

Например если много точек в группе хороших - то скорее и окрестностях выше вероятность хороших точек
И чем больше оценено точек в окрестности - то вес такого прогноза по идее должен быть выше

источник

04:02пожаловаться #5

С

Сергей in Machine learning

По поводу первичной кластеризации сейчас думаю, наверное стоит строить что-то вроде бинарного дерева

Где делить на группы из 4 свойств
Тогда будут свойства (1,2,3,4) и (5,6,7,8) например и первые точки отсчёта это либо все min либо max в группе

Так же можем узнать среднее значение, чтобы заранее понимать диапазон в каждой такой группе

Только это наверное не классическая кластеризация будет, но количество элементов для оценки должно сократиться

И скажем каждую новую точку будет проще определить к одной или другой группе, а уже там внутри пробовать делать полноценную кластеризацию

может не самое идеальное решение, но задача хотя бы хоть сколько нибудь реализуемой будет выглядеть

источник

04:10пожаловаться #6

GW

Green Wizard in Machine learning

@ess130 а что уже пробовал? или пока ничего, морально готовишься?

источник

04:11пожаловаться #7

С

Сергей in Machine learning

Пока только думаю что с этим делать и на сколько это всё рационально

источник

04:12пожаловаться #8

i

igor in Machine learning

Егор Овчинников

Вопрос: У вас есть две модели. Одна модель дает ROC-AUC=0.2, вторая 0.3. Какую вы выберете и почему?

0.2 конечно, меняем классы и у нас 0.8)

источник

04:18пожаловаться #9

ЕО

Егор Овчинников... in Machine learning

0.2 конечно, меняем классы и у нас 0.8)

Супер! Спасибо!

источник

04:21пожаловаться #10

GW

Green Wizard in Machine learning

Пока только думаю что с этим делать и на сколько это всё рационально

- смотреть данные, вдруг они уже могут хорошо лечь на автоматические методы класстеризации

- итеративное наращивание датасета, мне кажется, вполне рациональным тут (разметили 100 сэмплов - обучили - прогнали по 1000 - посмотрели где самые большие ошибки - разметили их - обучили модель - и т.д.)

- если повезёт, то таким образом получим модель способную в автом. режиме разметить ещё часть данных... так же, можно попробовать обучить чот типа дискриминатора, чтоб отделять уже знакомые данные от абсолютню новых

- поиграть с размерностями (может можно сжать их, либо же ввести доп., тем же RBF)

сорри за общие советы.... я не из гуру, по нику датасеты не узнаю)

источник

04:31пожаловаться #11

С

Сергей in Machine learning

В самом деле даже за такие советы большое спасибо, я кроме алгебры и статистики в самом деле нифига не знаю и мнение опытных людей все таки имеет больший вес, как минимум стоит прислушаться :)))

источник

04:37пожаловаться #12

GS

Gennady Shtekh in Machine learning

Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)

Не майтесь.

Пройдите первые 2 курса этой специализации, разметьте в том же экселе случайный (!) набор из пары тысяч элементов (или хотя бы приблизьтесь к этому числу, пока совсем не устанете размечать), потом примените SVM какой-нибудь по всем правилам с отложенной выборкой, проанализируйте ошибки, дальше уже думать, хватит вам такой точности ответа или нет.

На кластеризацию и ручные правила, как вы выше написали, боюсь, уйдет тоже времени немало, а результат далеко не гарантирован. Хоть процесс может получиться и увлекательным. :)

источник

07:50пожаловаться #13

VK

Vasil K in Machine learning

Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)

umap + hdbscan

источник

07:55пожаловаться #14

GS

Gennady Shtekh in Machine learning

Не майтесь.

Пройдите первые 2 курса этой специализации, разметьте в том же экселе случайный (!) набор из пары тысяч элементов (или хотя бы приблизьтесь к этому числу, пока совсем не устанете размечать), потом примените SVM какой-нибудь по всем правилам с отложенной выборкой, проанализируйте ошибки, дальше уже думать, хватит вам такой точности ответа или нет.

На кластеризацию и ручные правила, как вы выше написали, боюсь, уйдет тоже времени немало, а результат далеко не гарантирован. Хоть процесс может получиться и увлекательным. :)

То, что предложил коллега выше с итеративным подходом — разумно. Но реализовать правильно без подобного опыта будет сложно. Сложность в том, по каким принципам выбирать следующие примеры для обучения. Очевидные решения не всегда оптимальные в данной задаче, к сожалению.
В целом класс таких решений называется active learning.

источник

07:56пожаловаться #15

С

Сергей in Machine learning

umap + hdbscan

Спасибки :))))

источник

07:57пожаловаться #16

С

Сергей in Machine learning

То, что предложил коллега выше с итеративным подходом — разумно. Но реализовать правильно без подобного опыта будет сложно. Сложность в том, по каким принципам выбирать следующие примеры для обучения. Очевидные решения не всегда оптимальные в данной задаче, к сожалению.
В целом класс таких решений называется active learning.

Ну и вам тоже спасибки за трезвый взгляд :))))

источник

07:57пожаловаться #17

K

K-S in Machine learning

Блин, такое, конешн. Во что тогда врываться?) С адекватными сроками сейчас только CV во всяких медицинских приложениях, что-то не очень интересно, табличек нет, таймсериес нет, RL прозевал😂

Вот новый RL

https://www.kaggle.com/c/hungry-geese/overview/description

Hungry Geese

Don't. Stop. Eating.

источник

10:20пожаловаться #18

DP

Dmitry Penzar in Machine learning

Ребят, привет, такой вопрос - есть огромный массив данных - миллиарды записей, нужно каким-то образом просмотреть все эти записи и проставить им маркер: хорошо или плохо

Человек в принципе не может просмотреть такой огромный массив данных, но каким-то образом нужно отобрать хорошие и плохие образцы

Каким образом можно решить эту задачу?

Грубо это массив векторов в 80-мерном пространстве, где некоторые измерения = категорийные(фикс. Набор Значений 1,2,3,5,10)

Можно пробовать Active learning. Набрать выборку из 1000, отсмотреть. Обучить зоопарк моделей. Посмотреть где этот зоопарк более всего неуверен. Взять 100 записей, где более всегг неуверен - отсмотреть. И тд. Пока не устраивает качество.

источник

10:29пожаловаться #19

DP

Dmitry Penzar in Machine learning

А, уже написали коллеги

источник

10:30пожаловаться #20