12.9 原始数据矩阵

用于化学计量学分析的原始数据的二维矩阵形式Xm x n通常可由m个待分析样本(或称观测)的n个自变量(根据上下文亦可称指标、特征值、共有峰等)来描述。此外还涉及用于回归模型的因变量(亦作应变量)矩阵,以及用于模式识别的分类信息矩阵等。

其中,样本i可以用模式向量{\vec x_i}来表示:

{\vec x_i} = \left( {{x_1},{x_2}, \cdots ,{x_{in}}} \right)

上述矩阵也可以用如下的简图形式来表示:

化学计量学及化学指纹图谱分析中的自变量具有以下特点:

通过设定样本因变量,可建立该类样本的数学回归模型,从而发现并解释样品因变量(表观性质)与自变量(内在特征)之间的联系,并对未知样品的属性进行预测。因变量具有以下特点:

在实际分析前,应剔除可能会干扰分析的无效自变量,如取值绝大部分为零或变化极小的自变量。这类变量对分类和分析结果的贡献很小,并且可能引起算法的计算失败。