数据聚类:基础与高级概念解析
1. 数据聚类基础概述
数据聚类是数据挖掘和机器学习领域的重要问题,目前已经设计出了多种算法来解决该问题,主要包括以下几类:
- 基于代表的方法
- 层次方法
- 概率方法
- 基于密度的方法
- 基于图的方法
- 基于矩阵分解的方法
这些方法通常都需要指定一些参数,例如簇的数量、密度或矩阵分解的秩等。不同方法在处理簇的形状和密度变化方面各有优劣,具体如下表所示:
| 方法类型 | 对簇形状的适应性 | 对簇密度变化的适应性 | 实现成本 |
| — | — | — | — |
| 基于代表的方法和概率方法 | 受限 | 较好 | 一般 |
| 凝聚和基于密度的方法 | 较好 | 较差 | 一般 |
| 基于图的方法 | 最好 | 最好 | 较高 |
2. 聚类质量评估
聚类质量的评估是一个具有挑战性的问题,因为聚类是无监督问题,很难验证算法的质量。以下是一些常用的评估指标:
- 熵 :较低的熵值表示较高质量的聚类。整体熵的计算方式与基尼指数类似,使用特定簇的熵来计算,公式如下:
[E_{average} = \frac{\sum_{j=1}^{k_d} E_j \cdot M_j}{\sum_{j=1}^{k_d} M_j}]
- 成对精度和成对召回率 :通过生成同一算法确定的簇内的数据点对,计算属于同一真实簇的点对比例得到精度;通过采样同一真实簇内的点对,计算出现在同一算法确定的簇内的点对比例得到召回率。统一的
超级会员免费看
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



