Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 November 25

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
На самом деле такую ситуацию можно назвать в некотором роде даже классической. Подобных заданий полно, но какой то инфы о таком видел мало.
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Point Of Something
На самом деле такую ситуацию можно назвать в некотором роде даже классической. Подобных заданий полно, но какой то инфы о таком видел мало.
А кампании представлены просто как категории, или есть какие-то фичи, описывающие конкретно кампанию?
Если второе, то имеет смысл делать модель, в которую на вход подаются фичи юзера и фичи кампании, а на выходе она предсказывает вероятность, что юзер в результате этой кампании что-то купил. Обучать её на всех парах (юзер, кампания), для которых кампания реально затронула юзера (неважно, купил он или нет).
Если первое, остаётся тупо сидеть и копить данные.
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Можно провести аналогию с задачей поиска (как в гугле или яндексе). Там вместо кампаний - документы, вместо юзеров - запросы, и есть единая формула ранжирования, в которую на вход подаются фичи запроса, документа, и каких-то пересечений запроса с документом, и по скорам такой модели все документы ранжируются применительно к данному запросу
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну чаще всего категории. Если и можно получить какие то фичи, то корреляции с меткой нет.  Кстати мб кто знает есть какая то либа или функция, которая могла бы искать новые фичи из уже существующих?
Ибо корреляций у данных с меткой почти нет, зато между собой полно
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Point Of Something
Ну чаще всего категории. Если и можно получить какие то фичи, то корреляции с меткой нет.  Кстати мб кто знает есть какая то либа или функция, которая могла бы искать новые фичи из уже существующих?
Ибо корреляций у данных с меткой почти нет, зато между собой полно
Одна из причин, почему вообще любят нейросети - это как раз потому, что если сетка глубокая и широкая, то она фичи все выучивает себе сама.
А если хочется модель поменьше или попроще, то можно начать с sklearn.preprocessing.PolynomialFeatures
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Нейросети я и использовал. Обычный Dense, точность ниже чем у леса и градиентного бустинга была
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
На моей практике на несбалансированных данных, сетка всегда плохо себя показывет
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Даже если данные семплировать
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вообще есть у меня одна идея для несбалансированных классов но пока хз как реализовать.
Суть что бы тренировать батчами - в каждом батче весь минорный класс, и одинаковый ему по кол-во уникальный мажорный для каждого батча
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Мб уже есть такое
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Получается будет обучаться на сбалансированных данных без необходимости в семплировании
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Point Of Something
Вообще есть у меня одна идея для несбалансированных классов но пока хз как реализовать.
Суть что бы тренировать батчами - в каждом батче весь минорный класс, и одинаковый ему по кол-во уникальный мажорный для каждого батча
SMOTE
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Не читал весь тред, но на всякий случай вброшу.
источник

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Point Of Something
Нужен совет. Представьте что есть данные : 10000 юзеров с различными данными (страна, возраст и т.д.)
Этим юзерам дается некая рекламная кампания для покупки того или иного продукта.
Из всех 10 000 юзеров, купили всего человек 50.

Предсказать требуется естественно самую эффективную кампанию для конкретного юзера.
Что делать?
Брать данные только по 50 юзерам что бы учить модель на предсказывание кампании (кампаний может быть хоть сто)
тоже интересна эта тема, напишите пожалуйста к какому решению пришли в итоге
источник

DD

Daniil Davydov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
В "50 из 10000" по идее нет никакой информации, это статистический шум
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это семплирование, часто оно ведет себя неадекватно, я писал выше
источник

PO

Point Of Something in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Daniil Davydov
В "50 из 10000" по идее нет никакой информации, это статистический шум
Это соотношение, которое я привел как пример. В моей задаче есть 2500 юзеров что платили, при этом они являются всего 0.1% от всех юзеров
источник

GA

Georgiy Ashkar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Всем привет! знаю , возможно я не по теме
Необходимо решить задачу, но не могу понять с чего начать.
нужно, чтобы в случае, если кто-то подключился к wifi приходило уведомление в телеграм или на почту, что человек пришел.
допустим есть список с мас-адресами телефонов людей и их именами.
Скажем пришел человек и его телефон подключился к местной вафле. и программа выдает "Зина пришла". Аналогично с уходом. также необходимо собирать всю статистику, кто и как долго был сегодня/ на неделе/ за месяц.
подскажите в какую сторону смотреть?
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Georgiy Ashkar
Всем привет! знаю , возможно я не по теме
Необходимо решить задачу, но не могу понять с чего начать.
нужно, чтобы в случае, если кто-то подключился к wifi приходило уведомление в телеграм или на почту, что человек пришел.
допустим есть список с мас-адресами телефонов людей и их именами.
Скажем пришел человек и его телефон подключился к местной вафле. и программа выдает "Зина пришла". Аналогично с уходом. также необходимо собирать всю статистику, кто и как долго был сегодня/ на неделе/ за месяц.
подскажите в какую сторону смотреть?
Знаю, возможно я не по теме, но при переходе дороги, сначала в левую сторону, потом в правую.
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Georgiy Ashkar
Всем привет! знаю , возможно я не по теме
Необходимо решить задачу, но не могу понять с чего начать.
нужно, чтобы в случае, если кто-то подключился к wifi приходило уведомление в телеграм или на почту, что человек пришел.
допустим есть список с мас-адресами телефонов людей и их именами.
Скажем пришел человек и его телефон подключился к местной вафле. и программа выдает "Зина пришла". Аналогично с уходом. также необходимо собирать всю статистику, кто и как долго был сегодня/ на неделе/ за месяц.
подскажите в какую сторону смотреть?
Думаю что это не совсем по теме нашей группы. Вам следует смотреть в сторону логов устройства, к которому подключаются, и анализировать статистику уже из логов
источник