31、数据聚类:基础与高级概念解析

数据聚类:基础与高级概念解析

1. 数据聚类基础概述

数据聚类是数据挖掘和机器学习领域的重要问题,目前已经设计出了多种算法来解决该问题,主要包括以下几类:
- 基于代表的方法
- 层次方法
- 概率方法
- 基于密度的方法
- 基于图的方法
- 基于矩阵分解的方法

这些方法通常都需要指定一些参数,例如簇的数量、密度或矩阵分解的秩等。不同方法在处理簇的形状和密度变化方面各有优劣,具体如下表所示:
| 方法类型 | 对簇形状的适应性 | 对簇密度变化的适应性 | 实现成本 |
| — | — | — | — |
| 基于代表的方法和概率方法 | 受限 | 较好 | 一般 |
| 凝聚和基于密度的方法 | 较好 | 较差 | 一般 |
| 基于图的方法 | 最好 | 最好 | 较高 |

2. 聚类质量评估

聚类质量的评估是一个具有挑战性的问题,因为聚类是无监督问题,很难验证算法的质量。以下是一些常用的评估指标:
- :较低的熵值表示较高质量的聚类。整体熵的计算方式与基尼指数类似,使用特定簇的熵来计算,公式如下:
[E_{average} = \frac{\sum_{j=1}^{k_d} E_j \cdot M_j}{\sum_{j=1}^{k_d} M_j}]
- 成对精度和成对召回率 :通过生成同一算法确定的簇内的数据点对,计算属于同一真实簇的点对比例得到精度;通过采样同一真实簇内的点对,计算出现在同一算法确定的簇内的点对比例得到召回率。统一的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值