ChemPattern百科 - 化学计量学白皮书

12.11 数据降维

数据降维(data dimension reduction）是指将高维空间内的样本原始数据投射到低维空间，同时又尽量保留对象原始信息的数据预处理方法，即采用少量的自变量组合（强特征）来重新描述样本，从而替代原有的冗余和随机自变量。降维与特征提取（feature extraction）、特征选择的关系密不可分。在化学计量学及化学指纹图谱分析中，通常涉及下列情况：

特定分析方法计算过程要求自变量数目小于样本数目，如多元线性回归；

消除自变量之间的共线性，提高数据质量和分析结果准确度；

改善高维数对于分析的不利影响（维数灾难），如k最近邻法；

加快特定算法耗时的迭代运算过程，如自组织映射人工神经网络；

在ChemPattern中，数据降维由主成分分析（PCA）技术实现（详见12.14）。降维的压缩性能指标以方差捕获百分比来衡量。譬如80%方差捕获即指经PCA变换后，保留前n个主成分作为新的的自变量，使其累计解释方差占原始数据总方差的80%及以上。因此百分比较高的选项表示丢弃的样本信息相对较少，但同时需要保留更多的主成分数目，意味着压缩比的降低。

除了常见的数据降维方法外，一些新颖的统计学习方法还对原始数据矩阵采取了升维映射方法，可参见12.24支持向量机。