Size: a a a

Machine learning

2021 February 16

K

K-S in Machine learning
Ну и tSNE перед кластеризацией — это выбор не очень хороший
источник

V

Valery in Machine learning
Roman Majorant
Господа, такой вопрос

Я написал модель агломеративной кластеризации через TSNE и DBSCAN, данные никак не менялись, но после повторной компиляции модели, кластеризация произошла другим способом, нежели раньше, от чего это зависит?
если юзаешь дбскан, есть способ его круто бустануть
источник

V

Valery in Machine learning
источник

V

Valery in Machine learning
буквально одной фунцией)
источник

RM

Roman Majorant in Machine learning
K-S
Ну и tSNE перед кластеризацией — это выбор не очень хороший
хммм
а что лучше выбрать?
источник

RM

Roman Majorant in Machine learning
я как-то вычитал про tsne просто
источник

RM

Roman Majorant in Machine learning
Valery
буквально одной фунцией)
о, спасибо, почитаю
источник

K

K-S in Machine learning
Roman Majorant
хммм
а что лучше выбрать?
t-SNE в принципе неплохо отрабатывает, если ваши данные в исходном признаковом пространстве действительно разнесены друг от друга (как в каноничном примере с MNIST’a), но он будет совсем плох, если ваши данные на самом деле представляют собой какой-нибудь условный рулет или бублик. t-SNE настойчиво вам будет разносить ваши наблюдения по группам («кластерам»), когда в данных исходной размерности ничего подобного нет.

Попробуйте другие методы понижения размерности ( как минимум для сравнения с результатами t-SNE). UMAP, LLE, Hessian LLE, Isomap итд
источник

RM

Roman Majorant in Machine learning
K-S
t-SNE в принципе неплохо отрабатывает, если ваши данные в исходном признаковом пространстве действительно разнесены друг от друга (как в каноничном примере с MNIST’a), но он будет совсем плох, если ваши данные на самом деле представляют собой какой-нибудь условный рулет или бублик. t-SNE настойчиво вам будет разносить ваши наблюдения по группам («кластерам»), когда в данных исходной размерности ничего подобного нет.

Попробуйте другие методы понижения размерности ( как минимум для сравнения с результатами t-SNE). UMAP, LLE, Hessian LLE, Isomap итд
Спасибо!
источник

I

Ibp in Machine learning
Roman Majorant
то есть, что именно заставляет модель классифицировать иначе?
там видимо есть начальные, стартовые какие то параметры, которые задаются случайным образом, вот рандом стейт их и задает. а вообще там можно скорее всего явно эти параметры задать, нужно только покопаться
источник

DP

Dmitry Penzar in Machine learning
Roman Majorant
то есть, что именно заставляет модель классифицировать иначе?
у dbscan устойчивы только коровые точки, а границы могут меняться из-за того, что первая точка в алгоритме выбирается случайно
источник

RM

Roman Majorant in Machine learning
Ibp
там видимо есть начальные, стартовые какие то параметры, которые задаются случайным образом, вот рандом стейт их и задает. а вообще там можно скорее всего явно эти параметры задать, нужно только покопаться
хммм
буду смотреть
источник

RM

Roman Majorant in Machine learning
Dmitry Penzar
у dbscan устойчивы только коровые точки, а границы могут меняться из-за того, что первая точка в алгоритме выбирается случайно
ну да, согласен
источник

i

igor in Machine learning
cлышал там не согласных с диктатурой погнали метлой из вышки.
источник

DP

Dmitry Penzar in Machine learning
Roman Majorant
ну да, согласен
ну и сам tsne если не фиксированный state - будет давать разные резы. И да, как вам писали, tSNE не сохраняет расстояния. Потому кластеризация на tSNE в статьях, к примеру, не принимается сейчас. Моно umap, но тоже не в размерности 2. А в бОльшей
источник

RM

Roman Majorant in Machine learning
Dmitry Penzar
ну и сам tsne если не фиксированный state - будет давать разные резы. И да, как вам писали, tSNE не сохраняет расстояния. Потому кластеризация на tSNE в статьях, к примеру, не принимается сейчас. Моно umap, но тоже не в размерности 2. А в бОльшей
у меня как раз была размерность большая, в силу того, что с текстами работаю
источник

RM

Roman Majorant in Machine learning
то есть, целесообразно применить umap?
источник

DP

Dmitry Penzar in Machine learning
ну да, он в отличии оот тисни умеет переводить в, скажем, размерность 10
источник

DP

Dmitry Penzar in Machine learning
чем больше - тем лучше сохранятся глобальные расстояния
источник

RM

Roman Majorant in Machine learning
Dmitry Penzar
чем больше - тем лучше сохранятся глобальные расстояния
а для визуализации какой лучше метод?
Я просто через tsne как раз смотрел
источник