Size: a a a

2020 October 13

N

Nikita Blagodarnyy in Data Engineers
Как накопится пару ярдов-попробую побенчмаркать вместе с православным паркетом.
источник

AE

Alexey Evdokimov in Data Engineers
у меня опять странный вопрос (но я же собака сутулая, мне можно)

как из выборки в ???M элементов (объект с десятками полей разных типов) выбрать "наиболее типичные".
источник

AE

Alexey Evdokimov in Data Engineers
самый простой способ который приходит в голову: посчитать по каждому полю по отдельности его моду, и выбрать пересечение
источник

AE

Alexey Evdokimov in Data Engineers
но что делать если пересечение не пересекается
источник

AE

Alexey Evdokimov in Data Engineers
посчитать не главную моду, но ещё кол-во последующих?

но сколько тогда надо будет перебирать пересечений
источник

AE

Alexey Evdokimov in Data Engineers
и самое главное как это сделать на спарке, чтобы не больно
источник

N

Nikita Blagodarnyy in Data Engineers
а там кластеризация какая-нить? объявить центры кластеров самыми типичными.
источник

AS

Andrey Smirnov in Data Engineers
Knn?
источник

R

Renarde in Data Engineers
Alexey Evdokimov
у меня опять странный вопрос (но я же собака сутулая, мне можно)

как из выборки в ???M элементов (объект с десятками полей разных типов) выбрать "наиболее типичные".
Если характеристики объектов численные (или приводимые к числовым), то можно сделать knn, потом отобрать топ-N объектов близких к центроидам
источник

AE

Alexey Evdokimov in Data Engineers
Nikita Blagodarnyy
а там кластеризация какая-нить? объявить центры кластеров самыми типичными.
нет никакой кластеризации, просто большой набор объектов
источник

AE

Alexey Evdokimov in Data Engineers
какой-нить готовый пример этого самого кнн существует в природе?
источник

AE

Alexey Evdokimov in Data Engineers
кста, ни обучающей выборки, ни какой-то классификации нет.

нам нужно просто из сильно большого произвольного набора выбрать "наиболее типичные"
источник

R

Renarde in Data Engineers
Alexey Evdokimov
кста, ни обучающей выборки, ни какой-то классификации нет.

нам нужно просто из сильно большого произвольного набора выбрать "наиболее типичные"
Вот кластеризация именно про это
источник

R

Renarde in Data Engineers
ой, я совсем забыл термины. Это не knn, это k-means:

https://spark.apache.org/docs/latest/ml-clustering.html
источник

AE

Alexey Evdokimov in Data Engineers
о. эт звучит ближе к истине.
источник

AS

Andrey Smirnov in Data Engineers
knn это unsupervised, расстояния по умочанию эвклидовы (между цифровыми признаками)
источник

N

Nikita Blagodarnyy in Data Engineers
Alexey Evdokimov
нет никакой кластеризации, просто большой набор объектов
я имел ввиду запилить ее
источник

R

Renarde in Data Engineers
вкратце по коду:
- подаешь на вход датафрейм с объектами, собираешь фичи в features колонку
- устанавливаешь K - число групп в которые ты собираешь объекты (приблизительно)
- прогоняешь fit по датафрейму
- прогоняешь predict по датафрейму
из предикта видишь # кластера по объекту
источник

AS

Andrey Smirnov in Data Engineers
да. точно не knn а k-means
источник

R

Renarde in Data Engineers
а из модели берешь центры кластеров - вот тебе и примерные описания
источник