12.18 系统聚类分析

谱系图(Dendrogram)最早起源于由瑞典博物学家卡尔•林奈创建并发展的传统生物分类学。在经典的系统聚类分析(Hierarchical clustering analysis, HCA)中,单个的生物样本和与其具有最相似特征属性的样本优先结合为簇(Cluster)这一基本单位,从而渐次聚合构成了种、属、科、目等更高分类级别,与之类似的还有系统进化/种系发生树(Phylogenetic tree,图12-22)。系统聚类方法作为诸多领域的通用方法,目前已在分析化学与化学计量学中得到了广泛应用。

图12-22 系统进化树

谱系聚类发展至今已形成了诸多方法,与之对应的还有非谱系聚类法(如k-均值聚类)。前者最常见的方法如图12-23所示,ChemPattern中所提供的为凝聚法系统聚类分析,以及其扩展形式双向聚类分析(亦称聚类分析热图)。

图12-23 谱系聚类方法

系统聚类分析

进行系统聚类分析需要首先指定样本间距离的测度类型,以及连接方法。常用的距离计算方法一般有欧氏距离、街区距离、马氏距离,以及相关系数和夹角余弦相似度等。

基于距离测度的各类系统聚类的连接方法都可由以下通式表示,其对应参数取值如下表所示,其中s代表距离矩阵,r、(p+q)分别代表两个待结合的簇:

s\left( {r,p + q} \right) = {\alpha _p}s\left( {r,p} \right) + {\alpha _q}s\left( {r,q} \right) + {\beta _p}s\left( {p,q} \right) + \gamma \left| {s\left( {r,p} \right) - s\left( {r,q} \right)} \right|
连接方法 αp αq β γ s(r, p+q)
近邻法
(最短距离法)
½ ½ 0 ½ \dpi{100}\min \left( {s\left( {r,p} \right),s\left( {r,q} \right)} \right)
远邻法
(最长距离法)
½ ½ 0 ½ \dpi{100}\max \left( {s\left( {r,p} \right),s\left( {r,q} \right)} \right)
加权平均距离法 ½ ½ 0 0 \dpi{100}\frac{{s\left( {r,p} \right),s\left( {r,q} \right)}}{2}
未加权平均距离法 \dpi{100}\frac{{{m_p}}}{{{m_p} + {m_q}}} \dpi{100}\frac{{{m_q}}}{{{m_p} + {m_q}}} 0 0 \dpi{100}\frac{{{m_p}s\left( {r,p} \right) + {m_q}s\left( {r,q} \right)}}{{{m_p} + {m_q}}}
加权重心法
(中间距离法)
½ ½ 0 \dpi{100}\frac{{s\left( {r,p} \right) + s\left( {r,q} \right)}}{2} - \frac{{s\left( {p,q} \right)}}{4}
未加权重心法 \dpi{100}\frac{{{m_p}}}{{{m_p} + {m_q}}} \dpi{100}\frac{{{m_q}}}{{{m_p} + {m_q}}} \dpi{100}\frac{{ - {m_p}{m_q}}}{{{{\left( {{m_p} + {m_q}} \right)}^2}}} 0 \dpi{100}\frac{{{m_p}s\left( {r,p} \right) + {m_q}s\left( {r,q} \right)}}{{{m_p} + {m_q}}} - \frac{{{m_p}{m_q}}}{{{{\left( {{m_p} + {m_q}} \right)}^2}}}s\left( {p,q} \right)
误差平方和法
(沃德法)
\dpi{100}\frac{{{m_p} + {m_r}}}{{{m_p} + {m_q} + {m_r}}} \dpi{100}\frac{{{m_q} + {m_r}}}{{{m_p} + {m_q} + {m_r}}} \dpi{100}\frac{{ - {m_r}}}{{{m_p} + {m_q} + {m_r}}} 0 \dpi{100}\frac{{\left( {{m_r} + {m_p}} \right)s\left( {r,p} \right) + \left( {{m_r} + {m_q}} \right)s\left( {r,q} \right) - {m_r}s\left( {p,q} \right)}}{{{m_p} + {m_q} + {m_r}}}

谱系图的不同连接方法在使用中各有利弊(图12-24),需要结合应用中的具体情况进行判断。但一般来说,平均距离法和误差平方和法的聚类效果通常相对占优。

图12-24 不同谱系聚类方法特点示例
从左至右,从上至下:
1:近邻法中相邻分类的距离计算方式;2:远邻法中相邻分类的距离计算方式;3:重心法中相邻分类的距离计算方式;4:近邻法的空间收缩效应,两个相邻分类被视为了一个分类; 5:近邻法中分类界限不明显的样本形成了拉伸的类;6:重心法中合并类的重心移动导致树的合并距离可能并非单调递增,形成颠倒的聚类。