1、高光谱图像分析
图1为77个不同物质含量面粉样品的原始平均光谱反射曲线。在901-2517nm波长范围内,不同面粉的光谱具有相似的趋势,但也存在一定差异,这些差异可能是面粉品种的内部化学成分和表面信息的差异造成的。但当波长在小于969nm和超过2174nm时由于扫描过程中能量过大,噪音等影响导致光谱曲线的变化趋势不规则,因此选取969-2174nm波段的原始光谱数据进行后续工作。波长在969-1310、1470-1860、1935-2025和2040-2170nm处的显著特征波峰和波谷与面粉中存在的蛋白质、淀粉和水分中的N-H、C-H、O-H的第一和第二泛音拉伸以及组合波段和弯曲振动有关。因此,利用NIR-HSI技术预测小麦粉中蛋白质、淀粉和水分含量是可行的。
图1 面粉原始平均光谱反射曲线
2、样本集划分
首先将面粉样本划分为校正集和预测集,然后进行多元数据分析。利用校正集样品进行优化,建立定量模型。利用预测集样本来证明最优化结果和所建立的定量模型的重复性能。采用KS算法按照3:1的比例划分水分、蛋白质和淀粉的样本集。使系统响应之间的欧氏距离最大化,均匀覆盖多维空间。因此,选取347个样本作为校正集,其余115个样本作为预测集。校正集和预测集面粉样品中蛋白质、淀粉和水分含量的分布如表3-1所示。校正集样本包含了预测集样本的变化范围。这些数据表明,样本集划分方法的结果是合理的,所选择的样本构建模型具有较强的代表性。表3-1面粉中蛋白质、淀粉和水分含量的校正集和预测集的统计参考测量结果
3、面粉中蛋白质含量模型的建立
3.1 基于全波长的建模分析
根据面粉高光谱图像提取的全光谱数据及其对应的蛋白质含量参考值,建立全光谱校正模型,采用4种算法模型对蛋白质含量进行预测。表3-2给出了PLSR、PCR、SVMR和MLR相应优化校正模型的R2C、RMSEC、R2P、RMSEP、R2CV、RMSECV和RPD的结果。PCR为面粉蛋白质含量的最佳全波长预测模型。相应的R2C、R2CV和R2P分别为0.9861、0.9843和0.9580,相关的RMSEC、RMSECV和RMSEP分别为0.5201g/100g、0.5548g/100g和1.8223g/100g,RPD为1.0126。表3-2利用高光谱成像技术预测面粉蛋白质含量的模型性能
3.2 数据预处理
对原始光谱分别进行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9种预处理算法,预处理后的光谱数据分别建立PLSR、PCR、SVMR和MLR四类模型用于预测蛋白质含量。各预处理算法在Unscrambler中运行。各模型参数如下表3-3所示,结果表明,基于原始光谱的PCR模型对蛋白质含量的预测效果最好,PLSR、SVMR和MLR模型的预测效果略差于PCR模型,且SVMR模型存在一定程度的过拟合。PCR模型中9种预处理方法,Detrending和SNV的预测效果较好,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分别为0.9559和0.9709、0.9270g/100g和0.7533g/100g、0.9524和0.9687、0.9750g/100g和0.7811g/100g、0.9535和0.9557、2.1085g/100g和1.9625g/100g,但模型的效果和预测的精度均低于基于原始光谱的PCR模型,预处理效果不佳可能是由于一些关键信息失真。因此在后续工作中蛋白质含量预测模型的建立并未经过预处理。969-2174nm范围内的光谱包含大量冗余信息,不利于提高模型的鲁棒性和预测速度。因此,需原始光谱中选取特征波长进一步优化模型。表3-3基于不同预处理方法的PLSR、PCR、SVMR和MLR模型的蛋白质含量预测结果
3.3 提取特征波长
(1)基于IRIV算法提取面粉中蛋白质的特征波长IRIV是一种基于二进制矩阵变换滤波器(BMSF)的新型变量选择方法。IRIV算法通过多次迭代剔除非信息变量和无关信息变量,保留有效信息变量。图2(a)显示了波长数随迭代次数增加的变化过程。采用IRIV算法对蛋白质在962-2174nm波长范围内共进行了8轮迭代。在前四轮迭代中,波长的数量从203急剧下降到45,因为许多无关信息波长被消除,然后在随后的多轮迭代中缓慢下降。该结果在第7轮迭代时是稳定的,随后反向消除了9个变量。从图2(b)中可以看出,从原波长中选取的蛋白质特征波长数为16个(1452,1458,1464,1526,1532,1538,1544,1660,1666,1672,1750,2025,2030,2041,2090,2095nm),占总波长的7.88%。
图2IRIV算法筛选面粉中蛋白质含量特征波长
(a:迭代次数剩余变量生长模式,b:挑选特征波长)
(2)基于VCPA算法提取面粉中蛋白质的特征波长VCPA基于指数递减函数(EDF)和二进制矩阵采样(BMS)迭代,选择性能最优的特征波长子集。VCPA参数设置如下:EDF运行50次,BMS运行1000次,通过5倍交叉验证确定所选波长,最优子集之比为0.1。图3(a)为EDF运行过程中RMSECV的变化趋势。随着EDF的反复操作,特征空间缩小,RMSECV整体呈下降趋势,当迭代次数为37次时,RMSECV最小为0.4171g/00g。最后选取RMSECV最小的变量子集,提取8个蛋白质含量的特征波长(994,1001,1139,1489,1532,2030,2036,2090nm)(图3(b)),占总波长的3.94%。
图3VCPA算法筛选面粉中蛋白质含量特征波长
a:选择结果根据最小RMSECV确定特征波长;b:IRIV选择的特征波长分布
(3)基于IVISSA算法提取面粉中蛋白质的特征波长IVISSA结合全局搜索和局部搜索,以迭代方式智能优化光谱区间的位置、宽度和组合。图4(a)为RMSECV在迭代过程中的变化趋势。本研究中,在经过27次迭代后IVISSA算法筛选出蛋白质的82个特征波长。该算法提取了大量的特征波长且波段间距较小,一般来说,相似波长具有相同或相似的信息。因此,有必要进一步提取高光谱图像降维的特征波长,以减少相邻波段之间的无效信息,提高模型的运算速度。在IVISSA的基础上,利用IRIV进一步选择特征波长,并提出IVISSA-IRIV相结合,筛选出蛋白质的最佳特征波长数为11个(1001,1145,1470,1477,1732,1738,1744,1773,1791,2030,2079nm)(图4(b)),占总波长的5.42%。
图4IVISSA和IVISSA-IRIV算法筛选面粉中蛋白质含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(4)基于MASS算法提取面粉中蛋白质的特征波长MASS算法主要采用连续模型空间收缩和加权迭代策略来获得模型空间中的高性能模型。在此过程中,MASS应用随机样本程序,结合离群值掩蔽和变量组合效应,得到最优模型。图5(a)为迭代过程中RMSECV的变化趋势,为下降趋势。MASS算法经过42次迭代后,RMSECV最小值降至0.2587g/100g,蛋白质保留64个特征波长。本文将MASS算法与IRIV算法相结合,建立了一种混合变量选择方法来解决特征变量问题。MASS-IRIV算法最终得到的变量子集如图5(b)所示。从64个变量集中,提取了13个蛋白质含量的特征波长(1452,1470,1612,1630,1642,1684,1708,1744,1756,1767,1969,2023,2095nm),占总波长的6.40%。
图5MASS和MASS-IRIV算法筛选面粉中蛋白质含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(5)基于IRF算法提取面粉中蛋白质的特征波长IRF是一种基于随机蛙PLS框架的新型波长选择方法。在此过程中,IRF计算300次迭代生成的300个变量子集中每个波长的选择概率,并按降序排列。对每组波长分别进行交叉验证,得到RMSECV。RMSECV最小组中的波长即为所选波长。如图6(a)所示,选取前81个变量子集作为蛋白质的特征波长。IRF最终选择了976-1019、1101-1164、1415-1489、1507-1550、1581-1593、1618-1678、1690-1773、1785-1797、1873-1907和1964-2101nm共105个特征波长[图6(b)]。IRF保留了许多波长变量,结合IRIV进一步选取IRF的运行结果,以提高模型的鲁棒性和运算速度。蛋白质的波长数从105个减少到20个(1007,1013,1151,1158,1164,1433,1439,1446,1660,1666,1702,1708,1714,1750,1791,1797,2030,2036,2074,2095nm),其中有效减少的光谱维数如图6(c)所示,占全波长的9.85%。
图6 IRF和IRF-IRIV算法筛选面粉中蛋白质含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:IRF算法所选特征波长的序号;c:IRF-IRIV算法所选特征波长的序号)
3.4 最优建模效果的比较
首先评估了基于全波段近红外高光谱数据建立的PLSR、PCR、SVMR和MLR模型的性能。合适的特征波长提取算法有利于模型获得更好的鲁棒性和准确性,反之则可能会对模型的准确性和稳定性造成破坏,降低预测精度[100]。将全波段波长和提取的特征波长作为PCR模型的输入数据,评估特征波长提取对预测模型的影响。不同模型对蛋白质含量的预测结果如图7(a)所示。对比所建预测模型的预测性能,基于特征波长的模型对面粉蛋白质含量均能获得较好的预测效果。虽然IVISSA、MASS和IRF算法选择的特征波长数较多,提高了模型的性能,但模型的简化效果并不明显。因此,应进一步结合预测性能较好的IRIV算法提取特征波长。在蛋白质含量的定量分析模型中,基于全波长PCR模型的预测模型效果中R2P=0.9580,RMSEP=1.8223g/100g,RPD=1.0126。在蛋白质含量的预测模型中,对所选择的特征波长提取算法进行了评价和比较,验证了特征波长提取算法的准确性和有效性。最优模型IVISSA-IRIV-PCR预测蛋白质含量,提取了11个特征波长,其中R2C=0.9883,R2P=0.9859,RMSEC=0.4769g/100g,RMSEP=1.1580g/100g,RPD=1.5935。图7(b)是基于IVISSA-IRIV-PCR模型对面粉中蛋白质含量的预测值和实际值的散点图。虚线表示蛋白质实际值与预测值之间理想相关性的回归线。样本点在回归线附近分布紧密,说明模型的预测性能较好。在本研究中,面粉根据面筋含量可分为低筋面粉和高筋面粉。高筋面粉的蛋白质含量较高,淀粉含量较低,而低筋面粉的淀粉含量较高,蛋白质含量较低。因此,样品的蛋白质含量分布在两个簇中是合理的。本研究选取高筋面粉和低筋面粉作为样品,是为了扩大模型的检测范围,为今后模型的应用奠定基础。综上所述,特征波长的选择可以降低高光谱数据的高维度和复杂性,提高预测模型的精度和计算速度。结果表明,近红外高光谱成像技术可以准确地实现面粉中蛋白质含量的检测。综上所述,近红外高光谱成像技术是一种适用于面粉化学成分检测的方法。
图7a:基于全光谱和挑选特征光谱的蛋白质含量的PCR模型的预测结果;
b:IVISSA-IRIV-PCR模型获得的预测蛋白质含量的散点图
3.5 面粉中蛋白质含量的可视化分布
与传统光谱技术相比近红外高光谱成像技术可以同时提供样品的光谱和图像信息[1011。采用线性色标对提取的特征波长建立的蛋白质模型进行像素级处理可视化的伪彩色图,其中红色区域表示蛋白质含量高,紫色区域代表其含量低,如图8所示。利用IVISSA-IRIV提取的11个特征波长,建立了预测高光谱图像上每个像素蛋白质含量的简化模型。最后构建检测指标可视化图(图8)。预测样品的颜色变化自动集中在一个线性色条上,其中不同的颜色对应着面粉中蛋白质含量的不同值。可视化图可以直观地反映不同品种样品甚至同一品种样品中蛋白质含量的空间变化,有利于掌握物质含量的相对分布。伪彩色图可以显示不同面粉中基本化学成分的分布情况方便食品加工企业和采集者直观地选择需要的面粉。
图8 面粉中蛋白质含量的可视化图