1、高光谱图像分析
图1为77个不同物质含量面粉样品的原始平均光谱反射曲线。在901-2517nm波长范围内,不同面粉的光谱具有相似的趋势,但也存在一定差异,这些差异可能是面粉品种的内部化学成分和表面信息的差异造成的。但当波长在小于969nm和超过2174nm时由于扫描过程中能量过大,噪音等影响导致光谱曲线的变化趋势不规则,因此选取969-2174nm波段的原始光谱数据进行后续工作。波长在969-1310、1470-1860、1935-2025和2040-2170nm处的显著特征波峰和波谷与面粉中存在的蛋白质、淀粉和水分中的N-H、C-H、O-H的第一和第二泛音拉伸以及组合波段和弯曲振动有关。因此,利用NIR-HSI技术预测小麦粉中蛋白质、淀粉和水分含量是可行的。
图1 面粉原始平均光谱反射曲线
2、面粉中面粉含量模型的建立
2.1 基于全波长的建模分析
根据面粉高光谱图像提取的全光谱数据及其对应的淀粉含量参考值,建立4种模型对淀粉含量全光谱数据的校正集、交叉验证集和预测集的预测模型。表3-4给出了PLSR、PCR、SVMR和MLR相应优化校正模型的R2C、RMSEC、R2P、RMSEP、R2CV、RMSECV和RPD的结果。基于原始光谱的MLR模型对淀粉含量的预测效果最好,PLSR、PCR和SVMR模型的预测效果略差于MLR模型。相应的R2C、R2CV和R2P分别为0.9171、0.8908和0.8954,相关的RMSEC、RMSECV和RMSEP分别为1.1087g/100g、2.0704g/100g和3.8357g/100g,RPD为1.2547。
表3-4利用高光谱成像技术预测面粉淀粉含量的模型性能
2.2数据预处理
对原始光谱分别进行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9种预处理算法,预处理后的淀粉光谱数据分别建立PLSR、PCR、SVMR和MLR四类模型。各模型参数如下表3-5所示,对比所有预处理模型的预测性能,发现SVMR模型存在一定程度过拟合。基于MLR模型的9种预处理方法中,SNV和SNV-FD的预测效果较好,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分别为0.9274和0.9374、1.0914g/100g和1.0857g/100g、0.9005和0.9060、1.9766g/100g和1.9216g/100g、0.8776和0.8708、4.2457g/100g和4.3973g/100g。但经过预处理后的模型预测精度和稳定性均低于基于原始光谱的MLR模型,可能是由于一些有关淀粉含量的关键信息被剔除导致预处理效果不佳。因此在后续工作中淀粉含量预测模型的建立基于原始光谱信息。
表3-5基于不同预处理方法的PLSR、PCR、SVMR和MLR模型的淀粉含量预测结果
2.3 提取特征波长
(1)基于IRIV算法提取面粉中淀粉的特征波长IRIV算法通过多次迭代剔除非信息变量和弱信息变量,保留有效信息变量作为特征波长。经过几轮迭代之后,剩余变量的数量相应减少。由于变量之间的相互作用,反向消除策略的精细化评价具有良好的性能[102]。图9(a)给出了剩余波长数随迭代次数增加的变化过程。在969-2173nm波长范围内,采用IRIV算法共进行8轮迭代。在前4轮迭代中,由于许多不相关的信息波长被消除,波长数从203急剧减少到47,然后在随后的多轮迭代中缓慢减少。该结果在第7轮迭代中保持稳定,随后向后消除了9个变量。图9(b)显示了在1045、1145、1151、1195、1202、1208、1352、1358、1408、1702、1732、1738、1744、1896、1901、1907、1964、1975、2068和2095nm处选取的20个变量,占总波长的9.85%。
图9IRIV算法筛选面粉中淀粉含量特征波长
(a:迭代次数剩余变量生长模式,b:挑选特征波长)
(2)基于VCPA算法提取面粉中淀粉的特征波长使用VCPA算法对面粉中淀粉含量进行挑选特征波长处理。图10(a)为EDF运行过程中RMSECV的变化趋势。随着EDF的反复操作,特征空间缩小,RMSECV整体呈下降趋势。在这种情况下,删除了与淀粉含量相关性最小的波长,并将剩余波长添加到最佳子集中。最后,选取RMSECV的最小波长变量组合,当迭代次数为14次时,RMSECV最小为1.7328g/100g。提取9个淀粉含量相关的特征波长(图10(b))(1151、1170、1177、1402、1544、1732、1980、2058、2095nm),占总波长的4.43%。
图10VCPA算法筛选面粉中淀粉含量特征波长
(a:选择结果根据最小RMSECV确定特征波长;b:IRIV选择的特征波长分布)
(3)基于IVISSA算法提取面粉中淀粉的特征波长IVISSA是一种波长间隔光谱区域选择方法。图12(a)为RMSECV在迭代过程中的变化趋势,在经过34次迭代后,IVISSA算法筛选出淀粉的95个特征波长。该方法选取的特征波长数量众多,波长之间的间隔距离很小,相似波段携带相似信息。因此,需要优化特征变量对所得数据进行维数分解,以避免相邻波段之间信息的冗余,从而提高模型的运算速度和效率。因此,在IVISSA的基础上,利用IRIV进一步筛选特征波长,并提出IVISSA-IRIV组合选择最优特征变量以确定面粉中淀粉的含量。从图12(b)可以看出,面粉中提取的淀粉含量对应的特征波长为28个,分别为1145、1177、1183、1352、1458、1470、1477、1483、1526、1532、1538、1544、1550、1726、1732、1738、1744、1750、1756、1785、1861、1896、1907、1935、1964、1969、2068、2101nm,占总波长的13.79%。所选择的最优变量几乎包含了整个光谱区域,减少了数据冗余并保留了关键信息。
图12IVISSA和IVISSA-IRIV算法筛选面粉中淀粉含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(4)基于MASS算法提取面粉中淀粉的特征波长应用MASS算法提取面粉中淀粉含量的特征波长,图13(a)为迭代过程中RMSECV的变化趋势,随着迭代次数的增加,RMSECV呈现下降趋势。MASS算法经过39轮迭代后,RMSECV达到最小值为1.2138g/100g。淀粉保留56个特征波长。为了进一步提高模型的运算速度及准确性,将MASS算法与IRIV算法相结合,建立了一种混合变量选择方法。MASS-IRIV算法最终得到的变量子集如图13(b)所示。在39个变量集中,提取了13个淀粉含量的特征波长(1101、1133、1421、1684、1696、1726、1732、1901、1969、2041、2052、2090、2106nm),占总波长的6.40%。
图13MASS和MASS-IRIV算法筛选面粉中淀粉含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(5)基于IRF算法提取面粉中淀粉的特征波长在IRF算法的计算过程中,可以根据定义的策略对变量子集进行更新,在满足迭代次数后,计算每个被选中波段的概率,并按降序排列。对每组波段进行交叉验证,RMSECV最低组对应的波段即为所选波长波段。如图14(a)所示,当迭代次数为65次时,RMSECV达到最小值为1.8168g/100g,因此选取前65个变量子集作为淀粉的特征波长。IRF最终选择了1019-1038,1051-1089,1107-1151,1164-1214,1283-1358,1390-1415,1458-1470,1520-1532,1630-1642,1708-1750,1785-1797,1838-1849,1861-1924,1958-1997,2014-2106,2138-2159nm共111个特征波长(图14(b))。IRF保留了许多波长变量,结合IRIV进一步选取特征波长,以提高模型的鲁棒性和运算速度。淀粉含量的特征波长数从111个减少到15个(1032、1057、1296、1302、1321、1415、1732、1738、1744、1750、1838、2025、2030、2068和2095nm),其中有效减少的光谱维数如图14(c)所示,占全波长的7.39%。
图14IRF和IRF-IRIV算法筛选面粉中淀粉含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:IRF算法所选特征波长的序号;c:IRF-IRIV算法所选特征波长的序号)
2.4 最优建模效果的比较
首先基于全波段近红外高光谱数据建立的PLSR、PCR、SVMR和MLR模型的性能进行评估。将全波段波长和挑选的特征波长作为MLR模型的输入数据,评估特征波长提取对预测模型的影响。不同模型对淀粉含量的预测结果如图15(a)所示。对比所建预测模型的预测性能,基于特征波长的模型对面粉淀粉含量均能获得较好的预测效果。虽然IVISSA、MASS和IRF算法选择的特征波长数较多,提高了模型的预测性能,但模型的运算过程仍旧复杂且计算量大。因此,应进一步结合预测性能较好的IRIV算法提取特征波长。在淀粉含量的定量分析模型中,基于全波长MLR模型的预测模型效果中R2P=0.8954,RMSEP=3.8357g/100g,RPD=1.2547。在淀粉含量的预测模型中,对所选择的特征波长提取算法进行了评价和比较,验证了特征波长提取算法的准确性和有效性。最优模型IVISSA-IRIV-MLR预测淀粉含量,提取了11个特征波长,其中R2C=0.9394,R2P=0.9243,RMSEC=1.6090g/100g,RMSEP=2.1669g/100g,RPD=2.2209。在基于MLR模型的IRF-IRIV算法中,虽然R2P为0.9443,但其预测数值的准确性高于了R2C=0.9000,其模型在校正集上的准确性应该更高,造成这种现象的原因可能是:(1)校正集和预测集上数据分布较为不均匀;(2)模型正则化过多造成模型的准确性较低;(3)欠拟合即随着预测周期的增加,预测集上的准确率会超过校正集。因此,根据多重比较选取IVISSA-IRIV-MLR模型作为面粉中淀粉含量预测的最优模型。图15(b)是基于IVISSA-IRIV-MLR模型对面粉中淀粉含量的预测值和实际值的散点图。在本研究中,面粉根据面筋含量可分为低筋面粉和高筋面粉。因此,样品的淀粉含量分布在两个簇中是合理的。结果表明,近红外高光谱成像技术可以准确地实现面粉中淀粉含量的检测。
图15a:基于全光谱和挑选特征光谱的淀粉含量的MLR模型的预测结果;
b:IVISSA-IRIV-MLR模型获得的预测淀粉含量的散点图
2.5 面粉中淀粉含量的可视化分布
高光谱成像技术可以同时提供样品的光谱和图像信息。利用特征波长算法选取最优模型,对面粉中淀粉含量进行可视化,并对样品高光谱图像中感兴趣区域像素点进行变换,预测淀粉含量。将所建立的最优IVISSA-IRIV-MLR模型转移到图像的每个像素上,构建面粉中淀粉含量的可视化分布图,并预测面粉样品中所有像素点的淀粉含量。最优模型预测的淀粉含量用线性色条表示(图16)。在可视化图像中,具有相似光谱特征的高光谱图像像素具有相似的颜色值(淀粉含量)。在可视化分布图中,红色区域代表淀粉含量高,紫色区域代表淀粉含量低。随着淀粉含量的增加,颜色逐渐由紫色变为红色。不同面粉品种淀粉含量可通过颜色明显区分,且分布不均匀。高光谱成像技术可以实现面粉任意位置的可视化,直接表征面粉淀粉含量的分布,进而辅助面粉品质的综合评价。
图16 面粉中淀粉含量的可视化图
3、面粉中水分含量模型的建立
3.1基于全波长的建模分析
表3-5给出了用于计算面粉水分含量模型的校准集、交叉验证集和预测集的统计参数结果。对比PLSR、PCR、SVMR和MLR四种模型发现,只有PLSR模型的预测集决定系数稳定性最优达到了0.8以上,因此选取PLSR模型进行后续建模。基于全光谱数据的PLSR模型中相应的R2C、R2CV和R2P分别为0.8797、0.7721和0.8264,相关的RMSEC、RMSECV和RMSEP分别为0.1752、0.2409和0.2540g/100g,RPD为2.4220。
表3-5利用高光谱成像技术预测面粉水分含量的模型性能。
3.2数据预处理
表3-6给出了基于原始光谱分别进行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9种预处理算法所建立的PLSR、PCR、SVMR和MLR四类模型。从表3-6可以看出,PLSR模型的性能明显优于其余三类,与PLSR模型下未进行预处理的原始数据相比,SNV和MSC两种预处理算法均优于其他预处理方法且有利于改进PLSR模型的预测性能。基于原始光谱数据进行SNV预处理的PLSR模型具有较优的预测精度,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分别为0.8751,0.1785g/100g,0.7836,0.2362g/100g,0.8502和0.2360g/100g。因此在后续工作中,基于原始高光谱数据建立PLSR模型进行SNV预处理进行预测面粉中水分含量。
表3-6基于不同预处理方法的PLSR、PCR、SVMR和MLR模型的水分含量预测结果
3.3 提取特征波长
(1)基于IRIV算法提取面粉中水分的特征波长IRIV算法评估每个变量的重要性并根据其重要性对变量进行排序,是一种稳定性较好的方法。图17(a)显示了波长数随迭代次数增加的变化过程。在969-2173nm波长范围内,采用IRIV算法共进行8轮迭代。在前4轮迭代中,由于许多不相关的信息波长被消除,波长数从203急剧减少到41,然后在随后的多轮迭代中缓慢减少。该结果在第7轮迭代中保持稳定,随后向后消除了4个变量。图17(b)显示了在1019,1026,1057,1076,1408,1415,1720,1732,1738,1815,1820,1826,1832,1867,1930,1941,1952,1969,1975,1980,2047,2101,2122和2148nm处选取的24个变量,占总波长的11.82%。
图17IRIV算法筛选面粉中水分含量特征波长
(a:迭代次数剩余变量生长模式,b:挑选特征波长)
(2)基于VCPA算法提取面粉中水分的特征波长使用VCPA算法对面粉中水分含量进行挑选特征波长处理。图18(a)为VCPA算法利用EDF根据可变频率消除变量独立运行50次后得到的波长优化结果,保留RMSECV最小(0.2471g/100g)的变量子集为最终结果。VCPA算法挑选了12个水分含量相关的特征波长(图18(b),分别为982,1308,1346,1421,1738,1744,1750,1756,1901,1935,1952和1992nm,占总波段的5.91%。
图18VCPA算法筛选面粉中水分含量特征波长
(a:选择结果根据最小RMSECV确定特征波长;b:IRIV选择的特征波长分布
(3)基于IVISSA算法提取面粉中水分的特征波长对于IVISSA算法将潜在变量数设置为4个,采用五重交叉验证对模型进行评估,将二进制矩阵采样运行次数设置为1000次。RMSECV随着迭代过程的变化趋势如图19(a)所示。在经过26次迭代后,RMSECV值降至0.2071g/100g,保留102个特征波长。该算法选取的特征波长数量较多,模型的运算速度慢,不利于精简提效,因此结合效果较优的IRIV算法进一步挑选特征波长。并提出IVISSA-IRIV算法相结合提取面粉中水分含量。图19(b)为挑选出水分含量的最佳特征波长数为36个,分别为1089,1133,1151,1221,1227,1233,1239,1246,1252,1346,1358,1408,1415,1421,1427,1433,1507,1544,1550,1557,1738,1744,1809,1820,1844,1849,1867,1873,1896,1901,1907,1952,1958,1986,2025和2047nm,占总波段的17.73%。
图19IVISSA和IVISSA-IRIV算法筛选面粉中水分含量特征波长
a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(4)基于MASS算法提取面粉中水分的特征波长MASS算法提取面粉中水分含量的特征波长,图20(a)表示随着迭代次数的增加RMSECV呈现下降趋势。MASS算法在经过41轮迭代后,RMSECV达到最小值为0.1762g/100g。面粉中水分含量的相关波长保留52个特征波长。为了进一步预测减少波长数是否有助于提高模型的运算速度,将MASS算法与IRIV算法相结合。MASS-IRIV算法最终得到的水分含量的特征波长如图20(b)所示。在52个变量集中,提取了17个水分含量的特征波长,分别为982,1038,1133,1346,1408,1415,1421,1575,1720,1744,1750,1762,1809,1826,1913,1930和1958nm,占总波长的8.37%。
图20MASS和MASS-IRIV算法筛选面粉中水分含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:所选特征波长的序号)
(5)基于IRF算法提取面粉中水分的特征波长利用IRF算法提取面粉中水分含量的特征波长,如图21(a)所示,随着迭代次数的增加,当迭代次数达到81次时,选取RMSECV最小值(1.8122g/100g)的变量子集为所挑选的特征波长,IRF算法最终选择了969-982,1082-1195,1327-1346,1383-1396,1538-1550,1732-1779,1791-1844,1918-1941,1958-1997,2008-2164nm共94个特征波长(图21(b))。进一步结合IRIV算法以减少特征波长的数量,其挑选出的特征波长数从94减少到了20个(图21(c)),分别为982,1183,1195,1396,1732,1738,1744,1815,1935,1941,1975,1980,1986,1997,2014,2025,2030,2041,2047和2117nm,占总波段的9.85%。
图21IRF和IRF-IRIV算法筛选面粉中水分含量特征波长
(a:RMSECV在迭代过程中的变化趋势;b:IRF算法所选特征波长的序号;c:IRF-IRIV算法所选特征波长的序号)
3.4 最优建模效果的比较
首先基于全波段近红外高光谱数据建立的PLSR、PCR、SVMR和MLR四类模型的性能进行评估比较,发现PLSR模型性能最优,后续使用PLSR模型进行建模和评估。在预处理过程中,SNV表现出较好的预测能力,因此将全波段波长和挑选的特征波长先进行SNV预处理,然后作为PLSR模型的输入数据,评估SNV预处理结果结合特征波长提取对预测模型的影响。不同模型对水分含量的预测结果如图22(a)所示。对比所建模型的预测性能,基于IVISSA、MASS和IRF三种算法挑选特征波长模型仍然包含大量波段,不利于提高计算速度,基于三种特征波长提取算法所建的PLSR模型对面粉中水分含量能获得较好的预测效果。然而IRIV、VCPA以及三种混合变量选择方法虽然大大减少了样本的波长数量,但预测模型的精度下降,没有达到理想的预测效果,可能是因为在提取重要波段的过程中丢失了一些与含水分含量相关的有用信息,从而降低了模型的鲁棒性。在水分含量的PLSR模型中,基于全波长所建立的PLSR模型中R2C=0.8797,R2P=0.8264,RMSEC=0.1752g/100g,RMSEP=0.2540g/100g,RPD=2.4220。基于全波长数据预处理所建立的SNV-PLSR模型中R2C=0.8751,R2P=0.8502,RMSEC=0.1785g/100g,RMSEP=0.2360g/100g。在水分含量的预测模型中,基于IVISSA和MASS算法分别提取102和52个特征波长所建立的模型效果最好。其中SNV-IVISSA-MLR模型中,R2C=0.9062,R2P=0.8687,RMSEC=0.1547g/100g,RMSEP=0.2079g/100g。在SNV-MASS-MLR中,其R2C=0.9028,R2P=0.8646,RMSEC=0.1575g/100g,RMSEP=0.2068g/100g。但是基于IVISSA算法提取的特征波长数为102个远多于基于MASS算法提取的特征波长数,其模型的预测效果略高于SNV-MASS-MLR,但基于IVISSA算法的模型运行速度慢,不利于简化模型,因此选取SNV-MASS-MLR模型最为水分特征波长选择的最优模型。图22(b)是基于SNV-MASS-MLR模型对面粉中水分含量的预测值和实际值的散点图。水分含量的实际值和预测值在回归线附近分布紧密,表明模型的预测性能较好,可以准确实现面粉中水分含量的检测
图22a:基于全光谱和挑选特征光谱的水分含量的PLSR模型的预测结果;
b:SNV-MASS-PLSR模型获得的预测水分含量的散点图
3.5 面粉中淀粉含量的可视化分布
高光谱成像技术的突出优势是可以在像素级模型中创建样品化学性质的空间分布图。充分利用该方法的优势,实现了水分含量分布的可视化,用线性色条来反映面粉中水分含量的变化。图23为应用最优模型SNV-MASS-PLSR预测水分含量分布图。右边为线性色度条,面粉中水分含量的变化可直观地用线性的颜色刻度条进行表示。在可视化分布图中,紫色代表面粉的水分含量较低为9.4093g/100g,深红色代表面粉中的水分含量较高为13.0145g/100g,面粉的颜色从紫色到蓝色,再到绿色,再到黄色,最后变成红色,即面粉中的水分含量在不断增加。结果表明,通过颜色的变化可以区分面粉中水分含量的变化,实现了面粉中水分含量的可视化检测。因此,近红外高光谱成像技术是一种简单实用的方法,可用于快速、准确的无损检测物质内部化学成分并实现可视化。相对于单点检测技术,高光谱成像技术可以实现面粉任意局部水分含量的可视化,直观地揭示面粉中水分含量的变化,有助于对面粉的质量进行综合评价。
图23面粉中水分含量的可视化图
4、总结
本文首先将462份面粉根据KS算法按照3:1的比例划分为347个校正集和115个预测集。随后基于原始光谱建立全光谱数据的校正模型,构建PLSR、PCR、SVMR和MLR四种相应优化校正模型,并比较各模型的预测效果。经过比较发现在蛋白质、淀粉和水分的预测模型中,PCR、MLR和PLSR模型分别表现出较优的性能,为最佳全波长预测模型,后续实验分别基于其最优模型进行。基于蛋白质、淀粉和水分含量的PLSR、PCR、SVMR和MLR中,分别结合Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9种预处理算法进行建模。与原始光谱数据所建模型进行比较发现,基于原始光谱的PCR和MLR模型对蛋白质和淀粉含量的预测效果最好,经过预处理后的模型预测精度和稳定性均低于基于原始光谱的PCR和MLR模型,可能是由于一些有关蛋白质和淀粉含量的关键信息被剔除导致预处理效果不佳。因此在后续工作中蛋白质和淀粉含量预测模型的建立并未经过预处理。
在水分含量的预测模型中,基于原始光谱数据进行SNV预处理的PLSR模型具有较优的预测精度。969-2174nm范围内的光谱包含大量冗余信息,不利于提高模型的鲁棒性和预测速度。因此,需从原始光谱中选取特征波长进一步优化模型。特征波长的选择可以降低高光谱数据的高维度和复杂性,提高预测模型的精度和计算速度。
本研究采用近红外高光谱成像技术与化学计量学方法相结合,提出了一种快速可靠的测定小麦面粉中蛋白质、淀粉和水分含量变化的方法。采用SPA、CARS、UVE、IRIV、VCPA、IVISSA、MASS、IRF及其组合算法作为数据降维方法,挑选能反映小麦面粉有效信息在具有光谱噪声和重叠的光谱曲线上变化的特征波长。以全波长数据和特征波长数据子集作为输入变量,建立了基于PLSR、PCR、SVMR和MLR的一系列化学成分(蛋白质、淀粉和水分)预测模型。蛋白质、淀粉和水分含量的最佳预测模型分别为IVISSA-IRIV-PCR(R2C=0.9883,RMSEC=0.4701g/100g,R2P=0.9859,RMSEP=1.1580g/100g)、IVISA-IRIV-MLR(R2C=0.9394,RMSEC=1.6090g/100,R2P=0.9243,RMSEP=2.1669g/100g)和SNV-MASS-PLSR(R2C=0.9028,RMSEC=0.1575g/100g,R2P=0.8646,RMSEP=0.2068g/100g),分别提取出11、28和52个特征波长。利用高光谱成像技术能同时提供样品的光谱和图像信息。在像素级模型中创建样品化学性质的空间分布图。通过将像素级光谱数据代入挑选的最优模型中来预测面粉中每个像素点的蛋白质、淀粉和水分含量,最终构建面粉中各化学成分含量的可视化分布图。直观地表征面粉中各物质含量的分布,进而辅助面粉品质进行综合评价。