数据降维(data dimension reduction)是指将高维空间内的样本原始数据投射到低维空间,同时又尽量保留对象原始信息的数据预处理方法,即采用少量的自变量组合(强特征)来重新描述样本,从而替代原有的冗余和随机自变量。降维与特征提取(feature extraction)、特征选择的关系密不可分。在化学计量学及化学指纹图谱分析中,通常涉及下列情况:
在ChemPattern中,数据降维由主成分分析(PCA)技术实现(详见12.14)。降维的压缩性能指标以方差捕获百分比来衡量。譬如80%方差捕获即指经PCA变换后,保留前n个主成分作为新的 的自变量,使其累计解释方差占原始数据总方差的80%及以上。因此百分比较高的选项表示丢弃的样本信息相对较少,但同时需要保留更多的主成分数目,意味着压缩比的降低。