基于高光谱成像技术的山楂产地判别方法
发布时间:2024-02-22


image.png

 

产地是影响山楂品质的重要因素之一,目前对于各类农产品产地的溯源主要是依靠化学分析技术,如高效液相色谱技术(HPLC)、气相-质谱联用技术(GC-MS)、超高效液相色谱(UPLC)等,这些方法通常在测量前需要对样本进行粉碎或匀浆处理,并使用有机溶剂对样本中的化学成分进行萃取,这一过程不但会损坏样本,同时有机溶剂还可能会对环境造成污染。与之相比,高光谱成像技术是一种基于非常多窄波段的影像数据技术,可以在样本完好的情况下对其进行定性或定量分析,具有快速、无损、无污染检测的特点。

为满足市场需求,本文旨在探究高光谱成像技术在山楂产地识别中的应用及不同采样方向对于模型分类性能的影响,利用高光谱成像系统(410~2500 nm),分别采集山楂样本果梗面、侧面及底面的光谱数据,结合多种机器学习算法分别建立产地识别模型,最终实现基于高光谱成像技术对山楂进行产地溯源的目的。

一、材料与方法

1.1 材料与仪器

山楂样品均采自202210月至12月,其中山东省2批;山西省3批;辽宁省2批;河北省3批;河南省1批。每个批次随机选择80~100粒品相完好、大小相近的山楂,最终共采集900粒样品。使用干布擦拭样品表面残留泥土,然后于4℃环境中冷藏保存,便于后续图像采集。

1.2 实验方法

1.2.1高光谱数据采集

样本图像采集前,关闭环境灯光,打开卤钨灯并对高光谱成像系统进行预热。为探究摆放方式对山楂产地识别模型的影响,将山楂样本以果梗朝上(G)、侧面朝上(C)和底面朝上(D)三种方式摆放(图1),分别拍摄图像。采集图像时,将15~20粒样本放置在水平移动平台上,在样本排列末端放置白板,分别采集三个方向的图像数据。为减小环境以及仪器对图像数据的影响,在图像采集完成后使用软件对原始光谱数据进行RAD校正。随后进行黑白板校正以消除空气等外界因素对图像的影响并得到相对反射率,相对反射率计算公式如下:

image.png 

校正完成后,使用软件ENVI5.3在图像中手动选取感兴趣区域(ROI),对于不同拍摄方向的样本图像,分别取其相应部位(即果梗面、侧面和底面)作为ROI,以ROI平均反射率作为样本的光谱值。手动合并两个镜头得到的光谱数据,最终得到包含396个波段反射率的数据集。将样本按照73的比例随机划分为训练集和预测集,用于后续分类建模。

image.png 

1三种样本摆放方式注:a为果梗朝上(G);b为侧面朝上(C);c为底面朝上(D)

1.2.2 主成分分析

本研究在得到样本光谱原始数据后,首先利用PCA方法,对样本数据进行初步的可视化分析。

1.2.3 光谱数据预处理方法

为消除噪声的影响,分别采用多元散射校正(MSC)、一阶导数(D1)、SG平滑(SG)和标准正态变量变换(SNV)四种方式对原始光谱数据进行预处理,再使用预处理后的数据进行分类建模。

1.2.4特征波长提取方法

在建立全波段分类模型后,为降低模型复杂度,分别采用连续投影算法(SPA)和竞争性自适应重加权采样算法(CARS)对原始光谱数据进行特征波长提取,然后基于特征波长数据建立分类模型,为山楂专属小型高光谱设备的开发提供参考。

1.2.5分类模型的建立

对原始数据进行预处理或特征波长提取后,基于处理得到的数据,分别采用不同方法建立分类模型,并综合对比各项评估指标以筛选出最优模型。

1.2.6模型评估

标准模型建立完成后,分别通过以下指标筛选出最优模型:准确率(Accuracy)是分类问题最常用的评价指标;精确率(Precision)和召回率(Recall)则反映了模型对于正例的敏感程度,三个指标计算公式如下:

image.png 

本研究通过建立混淆矩阵,综合对比模型指标,筛选出最优分类模型。

二、结果与分析

2.1 原始光谱曲线分析

在进行分类建模前,首先对各产区样本的光谱特征进行分析并探究部分特征峰的成因,不同产区样本的平均光谱曲线如图2所示。对比发现不同产区山楂样品的平均反射率总体趋势相似;但是同产区山楂平均反射率在不同数据集(CGD)上有所不同,这可以归因于样品表面信息的差异。另外,不同产区山楂样品的反射率数值存在一定差异,这些差异主要与样品的表面信息(如果皮、果斑颜色)和品质特性有关,其中山东产区的山楂在400~800nm波段下的反射率明显高于其他产区,区域特征较为明显,根据杨晓宁等的研究报道:相比于其他产区,山东产区山楂的有机酸含量较高,这与上述现象相吻合。不同产区山楂在600~700nm处的吸收峰略有不同,但总体趋势相似;对于短波红外波段(SWIR),各产地反射率曲线趋势相近,但在1000~1200nm处的吸收峰有所区分。对不同波段下的吸收峰进行分析,700~800nm处的吸收峰可归因于样本中的叶绿素;970nm附近的吸收峰可能是水中O-H键的伸缩振动造成;1200nm附近的吸收峰可能与C-H的第二拉伸泛音有关,可归因于碳水化合物和脂肪,总体而言,各产地样本所含化学成分种类相似,但具体含量存在差异,这与张悦等报道的不同产地陈皮光谱曲线规律一致。

对比各数据集的平均反射率曲线(图2),发现G数据集在700~1000nm处反射率略高于其他数据集,而此波段反射率与样品水分及叶绿素含量密切相关,因此推测山楂样本不同部位所含成分略有不同。山东与辽宁产区样品的平均反射率在三个数据集上都表现出了较大差异(山东产区样品反射率较高,而辽宁产区样品则偏低),说明两组样品差异明显。光谱平均反射率曲线虽然展现出样本的部分差异,但是仅凭这些特征很难对样本进行产地溯源。综上所述,有必要建立分类模型以挖掘样品光谱数据的潜在特征。

image.png 

2不同产地在VNIR和SWIR波段下的平均反射率曲线

注:a、c、e分别为C、D、G数据集在VNIR波段的平均反射率曲线;

b、d、f分别为C、D、G数据集在SWIR波段的平均反射率曲线。

2.2 样本数据PCA分析

使用主成分分析(PCA)对三个数据集进行初步的可视化分析,绘制的PCA得分图见图3,保留了前两个主成分。初步分析发现,无监督模型分类效果并不好,三个数据集前两个主成分能解释的方差占比之和在75%左右。山东与辽宁产地的样本区分相对较好,这与原始光谱分析时得出的结论相符。对于大部分样本,使用无监督算法进行分类的效果并不理想,因此后续还需要采用PLSDASVMRF方法进行有监督分类建模。

image.png 

3原始数据PCA得分图注:a、b和c分别为G、C和D数据集