ChemPattern百科 - 化学计量学白皮书

11.3.2 主成分分析

主成分分析视图提供该类分析的多元统计视图，以及结果的详细汇总表格，如图11-9所示。方法原理详见12.15主成分分析与奇异值分解。

主成分分析是一种非参数方法，其结果只受数据预处理选项的影响。因此在属性栏中需要设置的主要为图形显示相关的选项，详见下表：

项目名称	说明	选项
图表选项	设置绘制数据分析图表时的相关参数
投影图	选择投影分析结果的二维或三维观察方式，并分为得分图、载荷图及综合模式图。	显示得分：S1-S2-S3、S1-S2、S1-S3、S2-S3 显示载荷：L1-L2-L3、L1-L2、L1-L3、L2-L3 显示双图：B1-B2-B3、B1-B2、B1-B3、B2-B3
显示分组边界	是否显示每个分组的样品数据标记的边界	无、四边形、多边形、椭圆形、四边形（填充）、多边形（填充）、椭圆形（填充）
离群值识别	在绘制每个分类的边界时，是否根据Q检验结果剔除离群值。注意此判别只依据当前坐标系显示坐标而言。	无、90%、95%、99%

在主成分分析的投影图中综合显示了下列信息，此外在偏最小二乘分析及单向多元方差分析等分析的投影图中也使用了同样设置：

投影图分别显示主成分分析的得分矩阵（Score plot）、载荷矩阵（Loading plot），以及二者的双图叠加显示（Biplot），并分别可以2D散点图（如PC₁- PC₂）和3D散点图（如PC₁- PC₂- PC₃）的模式进行显示。在叠加图中，当前主成分的载荷以矢量箭头的形式绘出，以方便观察具体样本在不同主成分得分坐标轴上的所处位置与主成分载荷之间的关系。
投影图在坐标轴名称处显示所对应主成分的累计解释方差百分比；
当在图形外观列表中辅助标记选项选中时，在2D得分图中显示各主成分得分的T² 95%置信区间的椭圆形边界，主要用于离群样本的识别;

从左至右，从上至下：
图1：投影图（S1-S2，得分图）；图2：辅助标记（开），显示原点及T2 95%置信区间；
图3：显示分组边界（椭圆形），离群值判别（90%）；图4：显示分组边界（椭圆形填充）；
图5：投影图（B1-B2，得分图+载荷图双图）；图6：投影图（L1-L2，载荷图）；
图7：投影图（S1-S2-S3，得分图）；图8：投影图（B1-B2-B3，得分图+载荷图双图）；

显示分组边界的功能支持2D/3D得分图。各分组的显示颜色可在各分组中分别设定。分组边界的线宽由2.11软件可视化设置中的标记线宽度决定。如果开启离群值识别，则在绘制分组边界时将属于该组的离群值排除在外。但需注意这个判定只适用于当前图形内容的辅助绘制，在2D特别是在3D散点图中，不能作为该样品是否为该分组离群值的判据;

主成分分析结果输出栏分别提供以下分析结果统计列表及对应的多元统计图形：

表1）主成分保留数目推导。只显示前k个主成分（k≤10）。详见12.15主成分分析与奇异值分解。

表头名称	说明
主成分	主成分PC_n
累计解释方差	截至该主成分所累积解释的样本数据方差。图11‑11-1。
样本特征值	该主成分的特征值。图11‑11-2。
随机样本特征值	根据自举法（Bootstrape）重复取样所获得的模拟样品集进行主成分分析所获得的特征值。图11‑11-2。
Kaiser规则	样品特征值≥1的主成分予以保留，使用时需要进行针对变量的数据标准化
Horn规则	样品特征值>随机样品特征值的主成分予以保留
自举法重复取样	样品集模拟次数，10,50,100可选。次数越大则随机性越好。

表2）自变量主成分累计解释方差。显示自变量i的方差在各主成分PCn中所获得的累积方差解释，以及该自变量主要在哪个主成分中得到集中解释。

表头名称	说明
成分名称	自变量的化合物名称或序号。
主成分PC_n	该主成分的特征值。图11‑11-3。

表3）主成分载荷。只显示前k个主成分（k≤10）。

表头名称	说明
成分名称	自变量的化合物名称或序号。
主成分PC_n	主成分PC_n的载荷向量，即该主成分与自变量之间的线性变换关系。图11‑11-4。图中左侧为对应的主成分载荷柱状图，右侧为等比例缩放显示的自变量柱状图，用以辅助比较每个自变量对当前主成分的影响程度。二者方向一致时为正相关，方向相反时为负相关。

表4）主成分得分。只显示前k个主成分（k≤10）。

表头名称	说明
样品序号，样品图谱	样品序号及名称
主成分PC_n	显示所有样品的主成分得分。PC₃之后的主成分一般相对次要，因此在投影图中不提供快捷显示的功能。此时可通过在此表格的原始数据视图中直接绘制对应的主成分的得分散点图从而进行观察。

表5）主成分分析有效性检验的Bartlett测试，按检验水平α=0.05，拒绝或接受假设H0=数据的协方差矩阵为单位矩阵，即数据在向量空间中呈球形分布。如下表中的例子所示：

样本个数 n	因变量个数 P	χ2	自由度 df	显著性 P > χ2
44	9	216.68	36	0

从左至右，从上至下：
图1：主成分累积解释方差；图2：主成分特征值/模拟样本主成分集特征值
图3：主成分分析自变量方差解释；图4：主成分载荷分析