Телеграмм чат группы bigdata_ru страница 2550

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4774 membersпожаловаться на группу

2021 March 03

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?

источник

12:09пожаловаться #1

AY

Alexey Yurasov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Oleg Antonovich

Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?

1. таблица пользователь - параметр отправляется в функцию кластеризации
Например. Имя и Возраст. На выходе получаются кластеры. Каждому кластеру соответствует некоторая группа. Так примерно, полагаю

источник

12:18пожаловаться #2

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Oleg Antonovich

Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?

В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)

источник

12:24пожаловаться #3

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Oleg Antonovich

Ув. товарищи, могли бы просветить, пожалуйста:

1) как в реальных кейсах решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?

2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?

Есть алгоритмы которые автоматом высчитывают нужное количество кластеров.

источник

12:25пожаловаться #4

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)

Да у меня этот вопрос возник как гипотетический в процессе решения тестового задания

источник

12:26пожаловаться #5

OA

Oleg Antonovich in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Спасибо за ответы

источник

12:26пожаловаться #6

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)

Почему редко? А для программ лояльности?

источник

12:33пожаловаться #7

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В "реальных кейсах" кластеризацию юзеров вообще очень редко делают.
Её результаты довольно плохо предсказуемы, для продакшна это недопустимо.
В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами.

А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)

Я делал реальную классификацию и сегментацию. Более того, без этого тот бизнес ну никак

источник

12:35пожаловаться #8

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Я делал реальную классификацию и сегментацию. Более того, без этого тот бизнес ну никак

Что за биз?

источник

12:39пожаловаться #9

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Инвестиционный

источник

12:40пожаловаться #10

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Инвестиционный

Клиентов сегментируете или продукты?

источник

13:48пожаловаться #11

PC

Peter Che in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Клиентов сегментировал

источник

14:25пожаловаться #12

A

Anna in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Тоже интересует вопрос применимости кластерного анализа.
В контексте, хочу спросить, насколько применим в «реальных кейсах». Кто нибудь пробовал/использовал/как ощущения?

https://github.com/retentioneering/retentioneering-tools

retentioneering/retentioneering-tools

Retentioneering: product analytics, data-driven customer journey map optimization, marketing analytics, web analytics, transaction analytics, graph visualization, and behavioral segmentation with c...

источник

14:30пожаловаться #13

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Спасибо, попробую работать над комбинациями шрифтов. Проблема будет в генерации синтетического курсива, сейчас мне совсем непонятно, как задать принципы соединения букв.

А никак. Нет универсального решения...

источник

14:37пожаловаться #14

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

есть 2 фрейма df1, df2 (с разной структурой, но есть один общий столбик, пусть там и там он имеет одно и тоже название -"col1"). нужно получить значения в df1 которых нету в df2 по столбику "col1"(разность множеств). можно решать 2я способами: 1. df1.merge(df2,indicator = True, how='left').loc[lambda x : x['_merge']!='both']. 2.

1 строка) df1.merge(df2,indicator = True, how='left') 2 строка) df1 = df1[df1['_merge'] != 'both']

Вопрос: Какой метод работает быстрее? за счет чего быстрее?

источник

14:40пожаловаться #15

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Тоже интересует вопрос применимости кластерного анализа.
В контексте, хочу спросить, насколько применим в «реальных кейсах». Кто нибудь пробовал/использовал/как ощущения?

https://github.com/retentioneering/retentioneering-tools

retentioneering/retentioneering-tools

Retentioneering: product analytics, data-driven customer journey map optimization, marketing analytics, web analytics, transaction analytics, graph visualization, and behavioral segmentation with c...

Что именно?

источник

14:40пожаловаться #16

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

есть 2 фрейма df1, df2 (с разной структурой, но есть один общий столбик, пусть там и там он имеет одно и тоже название -"col1"). нужно получить значения в df1 которых нету в df2 по столбику "col1"(разность множеств). можно решать 2я способами: 1. df1.merge(df2,indicator = True, how='left').loc[lambda x : x['_merge']!='both']. 2.

1 строка) df1.merge(df2,indicator = True, how='left') 2 строка) df1 = df1[df1['_merge'] != 'both']

Вопрос: Какой метод работает быстрее? за счет чего быстрее?

метод использования чистого языка, а не фреймворского гмо.

источник

14:43пожаловаться #17

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Роман Погромист

метод использования чистого языка, а не фреймворского гмо.

через лямбду?

источник

14:45пожаловаться #18

Р

Роман Погромист... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

через лямбду?

через простые sql запросы.

источник

14:46пожаловаться #19

RY

Ruslan515 Y in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Роман Погромист

через простые sql запросы.

не совсем понимаю как? у меня на входе таблицы, sql нету

источник

14:47пожаловаться #20