Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 03

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Oleg Antonovich
Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?
1. таблица пользователь - параметр отправляется в функцию кластеризации
Например. Имя и Возраст. На выходе получаются кластеры. Каждому кластеру соответствует некоторая группа. Так примерно, полагаю
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Oleg Antonovich
Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?
В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)
источник

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Oleg Antonovich
Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?
Есть алгоритмы которые автоматом высчитывают нужное количество кластеров.
источник

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)
Да у меня этот вопрос возник как гипотетический в процессе решения тестового задания
источник

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Спасибо за ответы
источник

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)
Почему редко? А для программ лояльности?
источник

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)
Я делал реальную классификацию и сегментацию. Более того, без этого тот бизнес ну никак
источник

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Peter Che
Я делал реальную классификацию и сегментацию. Более того, без этого тот бизнес ну никак
Что за биз?
источник

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Инвестиционный
источник

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Peter Che
Инвестиционный
Клиентов сегментируете или продукты?
источник

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Клиентов сегментировал
источник

A

Anna in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тоже интересует вопрос применимости кластерного анализа.
В контексте, хочу спросить, насколько применим в «реальных кейсах». Кто нибудь пробовал/использовал/как ощущения?

https://github.com/retentioneering/retentioneering-tools
источник

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Sergey
Спасибо, попробую работать над комбинациями шрифтов. Проблема будет в генерации синтетического курсива, сейчас мне совсем непонятно, как задать принципы соединения букв.
А никак. Нет универсального решения...
источник

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
есть 2 фрейма df1, df2 (с разной структурой, но есть один общий столбик, пусть там и там он имеет одно и тоже название -"col1"). нужно получить значения в df1 которых нету в df2 по столбику "col1"(разность множеств). можно решать 2я способами: 1. df1.merge(df2,indicator = True, how='left').loc[lambda x : x['_merge']!='both']. 2. 1 строка) df1.merge(df2,indicator = True, how='left') 2 строка) df1 = df1[df1['_merge'] != 'both']
Вопрос: Какой метод работает быстрее? за счет чего быстрее?
источник

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Anna
Тоже интересует вопрос применимости кластерного анализа.
В контексте, хочу спросить, насколько применим в «реальных кейсах». Кто нибудь пробовал/использовал/как ощущения?

https://github.com/retentioneering/retentioneering-tools
Что именно?
источник

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ruslan515 Y
есть 2 фрейма df1, df2 (с разной структурой, но есть один общий столбик, пусть там и там он имеет одно и тоже название -"col1"). нужно получить значения в df1 которых нету в df2 по столбику "col1"(разность множеств). можно решать 2я способами: 1. df1.merge(df2,indicator = True, how='left').loc[lambda x : x['_merge']!='both']. 2. 1 строка) df1.merge(df2,indicator = True, how='left') 2 строка) df1 = df1[df1['_merge'] != 'both']
Вопрос: Какой метод работает быстрее? за счет чего быстрее?
метод использования чистого языка, а не фреймворского гмо.
источник

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Роман Погромист
метод использования чистого языка, а не фреймворского гмо.
через лямбду?
источник

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ruslan515 Y
через лямбду?
через простые sql запросы.
источник

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Роман Погромист
через простые sql запросы.
не совсем понимаю как? у меня на входе таблицы, sql нету
источник