1.2 复杂体系与大数据科学

分析化学中的复杂体系是对同时包含多种待测成分与干扰物的分析对象及其多维数据解析方法等在内的一类分析体系范畴的统称。根据对分析对象的了解程度,又可将复杂分析体系分为待测组分完全未知的黑色(黑箱)体系和与之相对的白色分析体系,以及介于二者之间的灰色化体系。复杂体系样品的特点是分析结果通常具有不同程度的复杂性、不确定性和基质干扰效应。自然界中普遍存在的各类分析化学研究对象大都属于服从香农熵(entropy)理论的灰色复杂体系,体现在构成组分种类和数量上的多样化,以及相互之间协同关系的复杂化与非线性化。

对复杂体系进行深入的分析这一现实应用需求始终是分析化学特别是化学计量学的理论与技术的发展的主要驱动力。譬如指纹图谱分析、高通量分析、快速无损分析、超痕量分析,以及蛋白组学和代谢组学分析等诸如此类的分析化学中常见的复杂混合物体系难题,都是化学计量学的研究目标和方法学开发的目的所在。以光谱分析为例,用于解析复杂系统的多元校正(multivariate calibration)和多元分辨(multivariate resolution)技术都是化学计量学的重要研究领域,详见下表。

图1-2 黑白灰复杂分析体系
分析系统类型特征分析技术典型分析方法
白色分析系统混合物中的各组分性质已知多元校正多元回归,偏最小二乘回归等
灰色分析系统混合物中的组分大部分性质已知,但存在未知成分及可能的干扰物多元校正广义秩消失因子分析法等
黑色分析系统混合物中的组分构成及性质全部或大都未知多元分辨渐进因子分析法,窗口因子分析法,直观推导式演进特征投影法等

分析化学本质上是一门与数据分析息息相关的量测和信息科学。随着现代仪器分析技术的快速发展,分析化学正迎来“大数据时代”的到来。譬如采用各类高维、高分辨分析化学仪器如色质联用技术,单个复杂体系样品即可获得高达Gigabyte/h吞吐规模的海量数据,而采用经典分析化学的校正方法将无法利用并势必丢弃其中绝大部分的宝贵信息。因此当前复杂体系分析的瓶颈问题已然从分析仪器的硬件制约逐渐过渡到对大数据分析技术和工具软件的迫切需求。

因此如何针对以大数据的形式获得的复杂混合体系高维信息进行高通量、高内涵的关键变量提取、模式识别、数据挖掘,以及全面质量评价等分析任务,已成为当前化学各分支学科所面临的日益突出的紧迫挑战,而化学计量学原理与技术在该问题的解决中扮演着核心角色。

图1-3 复杂体系分析样品示例
柴油样品的GC×GC气相色谱分离图谱,显示各烷烃在不同毛细管柱上分别按碳数和不饱和度规律获得系统分离。Royal Dutch Shell
药用植物重楼(Paris Polyphylla var.Yunnanensis)皂苷提取物的UPLC-QTOF-ESI/MS TIC图谱及其解卷积结果。共检测到置信度>0.95,相对峰高>1.0%的化合物超过150个。