进行恰当的数据预处理(亦称数据校正)对于化学计量学分析而言具有重要的意义,通过标准化、变换、提取及保留有效数据,同时清除冗余及无关信息,从而可获得理想的分析结果。相反如果使用不当也可能导致错误的解析结果。
需要进行数据预处理通常包括以下情况:
从化学分类学角度而言,复杂体系样本个体所携带的化合物组成种类和构成比例信息,通常要比单纯的化合物含量信息更稳定、也对分类更有价值。由于生物样品的个体差异,经常同一分组的组内样本的含量波动在绝对值上要超过组间样品在比例上差异,此时无论使用原始的定性或定量数据,都会对正确区分组间和组内样品带来较大的干扰,如图12-8所示。
亚型 | 镍 (wt.%) |
钴 (mg/g) |
镓 (μg/g) |
硅酸盐 | 代表 晶型 |
---|---|---|---|---|---|
IAB | 9.50 | 4.9 | 63.6 | + | 八面体 |
IIAB | 5.65 | 4.6 | 58.63 | - | 六面体 |
IIIAB | 8.33 | 5.1 | 19.79 | - | 八面体 |
IVA | 8.51 | 4.0 | 2.14 | - | 八面体 |
IVB | 17.13 | 7.6 | 0.23 | - | 无结构 |
针对不同应用领域的各自特点,数据预处理技术发展出了众多算法,标度化(Scaling)和中心化(Centering)是其中的代表(图12-11)。
关于各类数据预处理方法在ChemPattern完整的化学计量学数据处理流程中的应用,可参考11.11分析数据准备。