12.11 数据降维

数据降维(data dimension reduction)是指将高维空间内的样本原始数据投射到低维空间,同时又尽量保留对象原始信息的数据预处理方法,即采用少量的自变量组合(强特征)来重新描述样本,从而替代原有的冗余和随机自变量。降维与特征提取(feature extraction)、特征选择的关系密不可分。在化学计量学及化学指纹图谱分析中,通常涉及下列情况:

  • 特定分析方法计算过程要求自变量数目小于样本数目,如多元线性回归;
  • 消除自变量之间的共线性,提高数据质量和分析结果准确度;
  • 改善高维数对于分析的不利影响(维数灾难),如k最近邻法;
  • 加快特定算法耗时的迭代运算过程,如自组织映射人工神经网络;
  • 在ChemPattern中,数据降维由主成分分析(PCA)技术实现(详见12.14)。降维的压缩性能指标以方差捕获百分比来衡量。譬如80%方差捕获即指经PCA变换后,保留前n个主成分作为新的 的自变量,使其累计解释方差占原始数据总方差的80%及以上。因此百分比较高的选项表示丢弃的样本信息相对较少,但同时需要保留更多的主成分数目,意味着压缩比的降低。

    除了常见的数据降维方法外,一些新颖的统计学习方法还对原始数据矩阵采取了升维映射方法,可参见12.24支持向量机