Телеграмм чат группы hadoopusers страница 2865

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 October 13

Nikita Blagodarnyy in Data Engineers

Как накопится пару ярдов-попробую побенчмаркать вместе с православным паркетом.

источник

14:25пожаловаться #1

Alexey Evdokimov in Data Engineers

у меня опять странный вопрос (но я же собака сутулая, мне можно)

как из выборки в ???M элементов (объект с десятками полей разных типов) выбрать "наиболее типичные".

источник

15:19пожаловаться #2

Alexey Evdokimov in Data Engineers

самый простой способ который приходит в голову: посчитать по каждому полю по отдельности его моду, и выбрать пересечение

источник

15:20пожаловаться #3

Alexey Evdokimov in Data Engineers

но что делать если пересечение не пересекается

источник

15:20пожаловаться #4

Alexey Evdokimov in Data Engineers

посчитать не главную моду, но ещё кол-во последующих?

но сколько тогда надо будет перебирать пересечений

источник

15:22пожаловаться #5

Alexey Evdokimov in Data Engineers

и самое главное как это сделать на спарке, чтобы не больно

источник

15:22пожаловаться #6

Nikita Blagodarnyy in Data Engineers

а там кластеризация какая-нить? объявить центры кластеров самыми типичными.

источник

15:23пожаловаться #7

Andrey Smirnov in Data Engineers

Knn?

источник

15:23пожаловаться #8

Renarde in Data Engineers

Alexey Evdokimov

Если характеристики объектов численные (или приводимые к числовым), то можно сделать knn, потом отобрать топ-N объектов близких к центроидам

источник

15:32пожаловаться #9

Alexey Evdokimov in Data Engineers

Nikita Blagodarnyy

а там кластеризация какая-нить? объявить центры кластеров самыми типичными.

нет никакой кластеризации, просто большой набор объектов

источник

15:45пожаловаться #10

Alexey Evdokimov in Data Engineers

какой-нить готовый пример этого самого кнн существует в природе?

источник

15:48пожаловаться #11

Alexey Evdokimov in Data Engineers

кста, ни обучающей выборки, ни какой-то классификации нет.

нам нужно просто из сильно большого произвольного набора выбрать "наиболее типичные"

источник

15:50пожаловаться #12

Renarde in Data Engineers

Alexey Evdokimov

Вот кластеризация именно про это

источник

15:51пожаловаться #13

Renarde in Data Engineers

ой, я совсем забыл термины. Это не knn, это k-means:

https://spark.apache.org/docs/latest/ml-clustering.html

источник

15:52пожаловаться #14

Alexey Evdokimov in Data Engineers

о. эт звучит ближе к истине.

источник

15:53пожаловаться #15

Andrey Smirnov in Data Engineers

knn это unsupervised, расстояния по умочанию эвклидовы (между цифровыми признаками)

источник

15:53пожаловаться #16

Nikita Blagodarnyy in Data Engineers

Alexey Evdokimov

нет никакой кластеризации, просто большой набор объектов

я имел ввиду запилить ее

источник

15:54пожаловаться #17

Renarde in Data Engineers

вкратце по коду:
- подаешь на вход датафрейм с объектами, собираешь фичи в features колонку
- устанавливаешь K - число групп в которые ты собираешь объекты (приблизительно)
- прогоняешь fit по датафрейму
- прогоняешь predict по датафрейму
из предикта видишь # кластера по объекту

источник

15:54пожаловаться #18

Andrey Smirnov in Data Engineers

да. точно не knn а k-means

источник

15:54пожаловаться #19

Renarde in Data Engineers

а из модели берешь центры кластеров - вот тебе и примерные описания

источник

15:55пожаловаться #20