层次聚类实战：距离与连接方式如何决定树状图质量

最新推荐文章于 2026-06-25 11:32:03 发布

原创

最新推荐文章于 2026-06-25 11:32:03 发布 · 390 阅读

1. 这不是教科书里的“树状图”——它是一把能切开数据结构的手术刀

你有没有遇到过这样的场景：手头有2000个客户订单，每个订单包含购买时间、商品类别、金额、地域、设备类型共7个维度，你想快速知道“哪些客户行为模式高度相似”，而不是靠人工翻Excel猜；或者你正在分析某城市300个社区的教育、医疗、房价、绿化率、通勤时长等12项指标，需要找出真正具有同质性的区域群组，为资源投放提供依据；又或者你在做生物信息学研究，面对上万个基因在不同实验条件下的表达谱，想定位功能协同的基因簇——这些都不是简单按某个字段排序就能解决的问题。 Hierarchical Clustering（层次聚类） 就是专为这类“没有预设类别数、需要理解样本间亲疏关系本质”的任务而生的核心算法。它不强行把人塞进K个框里，而是先让每个样本自成一派，再一步步合并最“亲近”的两派，最终生成一棵完整的 树状图（Dendrogram） ，这棵树的每一层切割，都对应一种合理的分组粒度。我做过6个跨行业项目，从电商用户分群到工业传感器异常检测，凡是涉及“探索性结构发现”“多尺度分组决策”“需要解释聚类逻辑”的场景，层次聚类几乎都是首选。它不像K-Means那样依赖初始中心点，也不像DBSCAN那样对密度参数极度敏感，它的优势在于 可解释性极强、无需预设簇数量、天然支持多层级业务决策 ——比如市场部可能需要5个大客户群做宏观策略，而销售团队则需要拆解到20个细分小组制定话术，同一棵聚类树就能同时满足。本文不讲抽象公式推导，而是带你用Python从零实现一个生产级可用的层次聚类流程：从距离度量怎么选、连接方式怎么定、树状图如何科学切割，到如何验证结果是否靠谱、如何避免常见陷阱，每一步都附带真实数据案例和可直接运行的代码。无论你是刚学完《机器学习实战》第7章的新手，还是正被老板催着交客户分群报告的数据分析师，这篇都能让你今天下午就跑出第一版可交付结果。

2. 核心设计逻辑：为什么必须先搞懂“距离”和“连接”这两个开关？

2.1 距离度量——不是所有“远近”都适合你的数据

很多人一上来就 scipy.cluster.hierarchy.linkage(X, method='ward') ，却没想过： 你喂给算法的“距离”，本质上是你对业务问题的定义 。距离算错了，后面所有树状图都是空中楼阁。我见过最典型的错误，是拿欧氏距离去处理混合型数据。比如你有一份用户数据，包含年龄（数值型）、性别（类别型）、最近一次购买品类（文本型）、是否VIP（布尔型）。如果直接标准化后算欧氏距离，性别“男=0，女=1”这个编码本身就在暗示“男女差异=1个单位”，但现实中性别差异和年龄差1岁完全不是同一量纲。这时候必须切换思路：

数值型变量（如年龄、消费额） ：标准化是底线。我坚持用 StandardScaler 而非 MinMaxScaler ，因为后者会压缩异常值影响，而层次聚类对离群点极其敏感。计算过程很简单：对每个特征列，减去均值再除以标准差。这样所有特征方差归一，避免高量纲特征（如年收入万元级）主导距离计算。
类别型变量（如性别、城市等级） ：绝不能直接编码为0/1！正确做法是 独热编码（One-Hot Encoding）后使用汉明距离（Hamming Distance） 。汉明距离定义为两个向量在对应位置上不同值的个数。例如，用户A（男，一线城市）编码为[1,0,1,0]，用户B（女，二线城市）编码为[0,1,0,1]，汉明距离就是4。这比欧氏距离更符合类别变量“非此即彼”的语义。
混合型数据终极方案：Gower距离 。这是处理混合数据的黄金标准，它对每种类型变量分别计算距离，再加权平均。Scikit-learn原生不支持，但 scikit-hierarchical 库或 dtaidistance 包可直接调用。其核心思想是：数值型用标准化后的绝对差，类别型用0/1指示函数，最后对所有特征的距离求平均。我在某银行客户分群项目中实测，用Gower距离比强行欧氏距离的轮廓系数（Silhouette Score）提升0.23，且业务部门反馈分组逻辑更符合实际。

提示：当你看到聚类结果中大量样本被孤立成单点，或树状图出现极长的“横线”（表示合并距离极大），90%概率是距离度量选错了。立刻检查数据类型分布，别硬扛。

2.2 连接方式（Linkage Criteria）——决定树的“生长哲学”

距离矩阵只是地基，真正决定聚类树形态的是 连接方式 。它回答了一个关键问题：“当我们要合并两个簇时，用什么规则来衡量它们之间的距离？”这就像给两支军队结盟，是看双方先锋部队的距离（Single Linkage），还是看双方主力部队的距离（Complete Linkage），抑或是看整体融合后的紧凑程度（Ward）？四种主流方式的本质区别如下：

Single Linkage（最短距离法） ：取两个簇中任意两点间的最小距离作为簇间距离。优点是能发现链状结构（如新月形数据），缺点是极易产生“链式效应”——一个离群点把远处两个本不该合并的簇强行拉在一起，导致树状图出现明显拖尾。我曾用它分析某电商平台的用户浏览路径序列，成功识别出“搜索→加购→放弃”和“首页推荐→详情页→下单”两条典型链路，但若用于客户价值分群，则会把一个高净值但行为怪异的客户拖垮整个高价值簇。
Complete Linkage（最长距离法） ：取两个簇中任意两点间的最大距离。它追求簇内紧密，结果通常更紧凑、球形，但对噪声敏感，且可能过度分割自然存在的长条形簇。在某制造业设备故障预警项目中，我们用Complete Linkage对振动频谱特征聚类，成功将8类故障模式清晰分离，轮廓系数达0.71，显著优于Single Linkage的0.42。
Average Linkage（平均距离法） ：取两个簇所有点对距离的平均值。它是Single和Complete的折中，鲁棒性较好，适用场景最广。我日常80%的项目默认选它，尤其当数据分布无明显特殊结构时。