11.1.1 数据预处理

ChemPattern支持在进行化学计量学及化学指纹图谱分析计算前对样本数据进行各类规范化的预处理。使用时分别选择工具自变量预处理,以及因变量预处理。注意其中一些方法在使用中需要区分针对观测还是针对变量。原理部分详见12.10数据预处理。所支持的算法见下表。

数据预处理类型 公式 变换后数据
标准化
Normalization,亦称UV-scaling
x_{ij}' = \frac{{{x_{ij}}}}{{{s_i}}} 标准差为1
标度化
Auto-scaling,亦称z-scaling
x_{ij}' = \frac{{{x_{ij}} - \overline {{x_i}} }}{{{s_i}}} 均值为0,标准差为1
均一化,归一化的一种
Uniformization
x_{ij}' = \frac{{{x_{ij}} - \min ({x_i})}}{{\max ({x_i}) - \min ({x_i})}} X' \in [0,1]区间
中心化
Mean-centering
x_{ij}' = {x_{ij}} - \overline {{x_i}} 均值为0。出于需要许多算法自动执行针对变量的中心化。
自然对数变换
Log Transformation
x_{ij}' = \ln ({x_{ij}} + 1) 加1避免为0时对数无法计算
平方根变换
Extraction of Square Root
x_{ij}' = \sqrt {{x_{ij}}} 原始变量必须为非负数
二值化
Binarization
\begin{gathered} x_{ij}' = 1 + bias({x_{ij}} > 0) \hfill \\ x_{ij}' = 0 + bias({x_{ij}} = 0) \hfill \\ \end{gathered} 加入偏置值是为了避免不同样品的转换值完全相同