3.2 样品数据导入

ChemPattern支持的色谱类分析化学通用数据格式如下所示。各主流色谱仪器生产厂家的工作站软件均提供从仪器的内部数据格式文件到通用数据格式文件的转换功能。

类型 扩展名 说明
ANDI二进制格式 *.cdf Analytical Data Interchange。基于NetCDF协议的色谱和质谱数据的数据交换格式标准,由美国分析仪器协会(AIA)制定。对于色谱数据而言,该类型文件通常包含积分结果。
ASCII文本格式 *.csv, *.txt Comma separated value。一类统称为“逗号分隔值“的以行为单位多列数据文本文件。很多软件支持该文件格式,如MS Excel。

其中待导入的ASCII文本格式数据需要按以下CSV规范格式生成:

标准格式的CSV文件只应有数据行,ChemPattern不支持识别由一些色谱工作站生成的CSV文件所包含的额外信息,如文件头部的描述信息和文件尾部的积分表等附加内容(以灰色背景标识),如图3-3所示。对于固定行数的文件头,可在软件设置数据输入文本数据文件头一栏中,输入需要跳过的文件的头部信息行数。对于文件尾,则需要手动删除,并在末尾不留空行。

图3-3 非标准格式CSV文件示例
detector_maximum_value 721.8754
detector_minimum_value 19.6055
actual_run_time_length 4200.0000
actual_sampling_interval 0.2000
...
time_axis ordinate_values
0.00000 25
0.00833 25
0.01667 -0
0.02500 -1
0.03333 -2
...
1.30000 78
1.30833 90
1.31667 104
1.32500 118
1.33333 133
...
peak_num peak_retention_time peak_start_time peak_end_time peak_width peak_area ...
0 888.9191 866.4052 912.8770 10.8709 573.7846 ...
1 1012.3130 986.9577 1027.6603 11.7521 619.9441 ...
2 1217.6534 1190.2770 1240.4769 12.2905 2792.0303 ...
3 1302.8617 1252.2770 1337.6770 13.6044 2729.1938 ...
4 1513.5251 1473.3059 1549.8770 17.8791 366.0976 ...
ChemPattern解决方案不对导入的样品数据文件格式和来源进行限制。但为了保证各样本数据间的可比对性、重现性及分析结果的可靠性,在获取样品数据及导入时,应遵循以下原则:
  1. 对于色谱类指纹图谱分析,优先考虑开展以各组分外标法含量测定或校正因子法含量测定为基础的定量化学计量学分析,详见3.8多组分含量测定
  2. 如化学标准品不易得或图谱包含大量未知化合物,则可以采用归一化色谱峰面积或峰高作为半定量分析的依据,但须确保样品的精密度和重现性符合要求,譬如都来自同一次试验所测定数据。参见3.8.5设定样品量
  3. 若第2点无法保证,则应采取一定的数据预处理措施,以消除不同仪器及实验环境所造成的成分响应值的系统偏差,包括不同色谱工作站积分方法的差异等。此时的分析结果方可视为可靠的定性分析。详见11.1.1数据预处理