甜橙是世界上种植最广泛的柑橘类水果,其年产量持续增长,2016 年全球产量达到7 300 万t[1]。甜橙营养丰富,除了富含维生素、膳食纤维和有机酸外,还含有多酚、类黄酮和类胡萝卜素在内的多种功能性物质,具有抗炎、抗癌和抗氧化等多种生理功效[2]。但由于不同地区间生长环境差异大,导致各地甜橙营养成分和感官特征存在差异[3]。冰糖橙是甜橙的一个主要品种[4],在我国冰糖橙主要种植于云南省新平县、湖南省麻阳县和永兴县。其中云南省种植的冰糖橙中,以褚橙最为有名,价格更高。湖南省永兴县种植的冰糖橙在2014 年被认证为国家质检总局地理标志产品。因此冰糖橙作为具有地理特色的高价值农产品,迫切需要准确的产地鉴别方法。
红外光谱技术因其准确快速、经济无创的优点,已用于藜麦[5]和山药[6]等多种农产品的产地溯源研究。生物体内的矿物元素必须从外界环境摄取,自身无法合成,因此矿物元素信息可以作为有效的产地溯源指标[7]。农产品的产地溯源信息具有一定的复杂性,红外光谱、矿质元素或传感器技术这样的单一信息源,由于无法全面地表征样品的化学信息,因而具有一定的局限性。数据融合策略可解决该问题,并已在产地溯源领域广泛应用[8-9]。Wang 等[10]利用傅里叶变换红外光谱和电感耦合等离子体质谱对云南9 个城市牛肝菌中的有机物和矿质元素进行分析,并融合了光谱数据和矿质元素含量数据,结果表明融合后的数据为牛肝菌的产地判别提供了更充分的信息。Cozzolino 等[11]利用中红光谱、近红外光谱以及紫外光谱对来自澳大利亚和新西兰的葡萄酒进行产地鉴别研究,结果表明相较于基于紫外或近红外光谱建立的模型,基于低级数据融合策略建立的产地鉴别模型性能更优。Pei 等[12]利用傅里叶变换红外光谱和近红外光谱建立云南野生重楼的产地鉴别模型,结果表明基于数据融合策略建立的鉴别模型正确率达100%。张娇等[13]利用衰减全反射-傅里叶变换红外光谱与紫外光谱对滇黄精产地进行鉴别,结果表明基于中级数据融合策略建立的鉴别模型能够快速准确地鉴别滇黄精产地。以上研究表明数据融合策略是进行产地鉴别研究的一种有效方法。
偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)能够有效地解决多重共线性对变量产生的影响,对于变量个数多于样本容量的情况建模更加合适。PLS-DA 在处理信息时通过从信息矩阵X 中搜索样本标签矩阵Y 响应的相关变量,将大量相关变量转换为一系列潜在变量(latent variable,LVs)。LVs 是PLS-DA 模型中的关键参数[14]。
数据融合是整合不同来源数据的过程,可以弥补不同分析仪器之间的不足,找到更有价值的数据集,从而提高模型的性能,更好地解释结果[15]。低级数据融合也称为数据级融合,将来自各种仪器的预处理数据组合到单个矩阵中,每个样本获得一个新的指纹,以进行下一步分析;中级数据融合也称为特征级融合,将各种仪器采集数据的特征信息结合起来进行分析[16-17]。中级数据融合需要的变量更少,能够开发噪声更少、计算强度更低的模型。
目前国内对不同产地冰糖橙的鉴别研究甚少,本文选用4 种不同产地冰糖橙,采用中红外光谱和矿质元素信息建立PLS-DA 模型,并通过低级和中级数据融合策略融合光谱和矿质元素信息,实现对不同产地冰糖橙的鉴别,以期为冰糖橙的质量控制提供参考。
冰糖橙样品:产自湖南麻阳、湖南永兴、云南元江、云南新平。所有样本清水洗净后用刀将果皮与果肉分离,在55 ℃下干燥至恒重并粉碎过100 目筛后保存于自封袋中,用冰糖橙的部分果肉进行测试。
试验所用主要试剂见表1。
表1 试验所用主要试剂
Table 1 Main reagents used in the experiment
试剂KBr HNO3 HClO4 1 000 μg/mL 混合元素标准溶液纯级光谱纯优级纯优级纯生产厂家天津博天盛达科技有限公司苏州晶瑞化学股份有限公司国药集团化学试剂有限公司国家有色金属及电子材料分析测试中心
Frontier 型傅里叶变换红外光谱仪(配有氘代硫酸三苷肽检测器)、OPTIMA 8000 型电感耦合等离子体发射光谱仪:美国Perkin Elmer 公司;Digi-Block ED54 型石墨消解仪:北京莱伯泰科仪器股份有限公司。
1.3.1 光谱采集
溴化钾与冰糖橙粉末样品混合均匀压片测试光谱。光谱采集范围为4 000~400 cm-1,分辨率4 cm-1,累计扫描次数16 次。
1.3.2 矿质元素含量测定
根据GB 5009.268—2016《食品安全国家标准 食品中多元素的测定》中的方法,对冰糖橙样品中的B、Ba、Ca、Co、Fe、K、Mg 等15 种矿质元素含量进行测定。称取0.500 g 样品,与10 mL HNO3 和1 mL HClO4 共同置于聚四氟乙烯消解管中,盖上消解盖后静置4 h,然后放置于石墨消解仪中进行消解,设置7 h 缓慢升温至200 ℃,在200 ℃的温度下进行消解至消化液清亮无色。消解完成后在消解管中加入体积比1∶1 的HNO3 溶液1 mL,用去离子水将消解液转移至比色管中并定容至25 mL,使用电感耦合等离子体发射光谱仪测定各矿质元素含量。
使用Origin 2019 软件绘制傅里叶变换红外光谱图和矿质元素含量图,使用MATLABR2019a 软件完成数据的预处理、特征变量选取、PLS-DA 模型的建立以及数据融合。采用Kennard-stone 算法将数据随机分为训练集(n=50)和测试集(n=26),其中测试集不参与模型的建立,用于验证模型的泛化性能。
4 种不同产地冰糖橙的平均中红外光谱见图1。
图1 不同产地冰糖橙的平均中红外光谱
Fig.1 Average mid-infrared spectra of Bingtang sweet oranges from different origins
由图1 可知,冰糖橙的中红外光图谱大致相似,主要吸收峰有3 345、2 925、1 735、1 650、1 535、1 423、1 242、1 142、1 100、1 060、990 cm-1 和920 cm-1。其中3 345 cm-1 附近的吸收峰是由O—H 伸缩振动引起的,2 925 cm-1 附近的吸收峰是由C—H 伸缩振动引起的,1 753 cm-1 附近的吸收峰是由 伸缩振动引起的,1 670~1 630 cm-1 为酰胺Ⅰ的指纹区,1 650 cm-1附近的吸收峰是酰胺Ⅰ带的吸收峰,1 535 cm-1 附近的吸收峰是酰胺Ⅱ带吸收峰,1 480~1 300 cm-1 的吸收峰是由于CH3、CH2 的变角振动引起的,1 200~900 cm-1是碳水化合物的指纹区,1 150~1 000 cm-1 的吸收峰与糖类有关;其中1 060 cm-1 峰是果糖中C—O 和C—OH振动的吸收峰[5,18-21]。从中红外光谱中可以看出,冰糖橙的中红外吸收峰主要与糖类和蛋白质有关。
不同产地冰糖橙的矿质元素含量见表2。
表2 不同产地冰糖橙的矿质元素含量
Table 2 Mineral element contents of Bingtang sweet oranges from different origins mg/kg
注:同行不同字母表示差异显著(P<0.05)。
元素B Ba Ca Co Cr Cu Fe K Mg Mn Na Ni P Se Sr湖南麻阳4.65±3.53c 3.50±1.82a 2 663.60±367.47a 0.04±0.02c 0.27±0.03a 1.72±0.45c 8.64±1.96c 8 013.40±970.65c 700.37±98.14c 2.27±0.83b 13.23±3.32b 0.23±0.12c 1 607.00±151.04a 2.81±1.84c 3.15±0.64b湖南永兴5.64±1.79c 0.86±0.54c 957.04±461.92c 0.07±0.03b 0.12±0.04c 1.46±0.67c 3.56±1.59d 3 458.70±2579.80d 274.61±133.38d 1.52±0.59b 14.75±4.98b 0.15±0.13c 674.98±182.99d 0.80±0.46d 1.41±0.42c云南元江17.59+2.97a 2.21±0.20b 2 588.60±163.70a 0.23±0.03a 0.16±0.09bc 2.47±0.39b 16.79±3.52a 10 664.00±1237.50a 1 091.60±49.60a 10.37±0.95a 37.60±5.10a 0.88±0.08a 1 247.30±110.80c 5.73±0.70a 7.17±0.64a云南新平11.83±3.60b 2.74±1.41ab 2 120.20±348.65b 0.09±0.04b 0.17±0.11b 3.13±0.68a 12.21±1.80b 9 458.50±758.95b 838.52±54.49b 9.51±9.09a 39.88±22.55a 0.34±0.14b 1 385.20±109.23b 3.92±0.82b 3.34±0.99b
由表2 可知,Fe、K、Mg、P 和Se 5 种矿质元素在冰糖橙的4 个产地之间均呈现显著性差异。对于K、Mg、Fe 和Se 元素含量,呈现出云南元江>云南新平>湖南麻阳>湖南永兴的规律。对于P 元素,4 个不同产地的含量差别较小,湖南永兴冰糖橙的P 元素含量最少。从矿质元素含量的分布中可以看出,不同产地的冰糖橙矿质元素含量有所不同,矿质元素能够作为冰糖橙产地鉴别的有效因子。
在模型建立前,使用平滑(savitzky-golay,SG)、标准正态变换(standard normal variate,SNV)、去趋势(detrend)与归一化结合作为红外光谱的预处理方法。表3显示使用全光谱及在不同特征变量选取下建立PLS-DA模型的模型参数及正确率。
表3 基于全光谱及不同特征变量选取方法建立的PLS-DA 模型结果
Table 3 Results of PLS-DA model based on full spectra and different feature variables selection methods
特征变量选取方法无变量投影重要性指标法(variable importance in projection,VIP)反向区间偏最小二乘法(backward interval PLS,Bipls)反向区间偏最小二乘结合变量投影重要性指标法(backward interval PLS combined with VIP,Bipls_VIP)三区间组合的偏最小二乘法(three synergy intervals PLS,3Sipls)三区间组合的偏最小二乘结合变量投影重要性指标法(three synergy intervals PLS combined with VIP,3Sipls_VIP)四区间组合的偏最小二乘法(four synergy intervals PLS,4Sipls)四区间组合的偏最小二乘结合变量投影重要性指标法(four synergy intervals PLS combined with VIP,4Sipls_VIP)参数13 14 14 12 14 14 15 14训练集正确率/%92.00 96.00 100.00 96.00 98.00 98.00 98.00 94.00测试集正确率/%76.92 92.31 88.46 80.77 96.15 92.31 96.15 92.31变量数3 601 1 357 1 067 338 831 411 600 179
由表3 可知,与使用全光谱建立的模型比较,使用VIP、4Sipls 和Bipls 等特征变量筛选方法能够有效降低模型计算量,提高模型性能。使用4Sipls 选取特征变量建立的PLS-DA 模型在训练集和测试集上分别取得了98.00% 和96.15% 的正确率,说明使用4Sipls 改进的PLS-DA 模型具有良好的泛化性能。
Bipls、3Sipls 和4Sipls 通过计算区间包含的信息量对模型的贡献度选取和组合光谱区间[22]。使用4Sipls 选取的特征变量的结果见图2。
图2 4Sipls 选取的特征变量结果
Fig.2 Feature variables selected by 4Sipls
由图2 可知,4Sipls 选取的特征变量主要集中在800~700、1 150~1 000、1 450~1 300 cm-1 及1 750~1 600 cm-1 范围,其中1 150~1 000 cm-1 为糖类的指纹区,1 670~1 630 cm-1 为酰胺Ⅰ的指纹区,这说明不同产地冰糖橙的中红外光谱主要在糖类以及蛋白质相关的吸收峰上存在差异。
VIP 表示自变量对模型拟合的重要性,VIP 值越高,该变量对标签的解释能力越强,通过计算VIP 值高于1 的变量通常被视为模型的重要变量[23]。4Sipls 选取变量的VIP 值分布见图3。
图3 VIP 值分布
Fig.3 Distribution of VIP value
由图3 可知,VIP 值大于1 的变量主要集中于1 150~1 000 cm-1,其中1 060 cm-1 峰是果糖中C—O和C—OH 振动的吸收峰,进一步说明不同产地冰糖橙中红外光谱的主要差异在糖类相关的吸收峰上。
Z-score 标准化是一种抗噪声干扰强的数据预处理方法,它将各个单位级别的数据进行统一化处理,使其集中于一个统一的范围内,以减小规模和分布差异对模型的影响[24]。因此在建立PLS-DA 模型前,先对矿质元素数据进行Z-score 标准化。表4 为使用15 种矿质元素信息以及使用主成分分析法(principal component analysis,PCA)、VIP 选取特征变量建立的PLSDA 模型的模型参数和正确率。
表4 基于15 种矿质元素及PCA、VIP 选取特征变量建立的PLSDA 模型结果
Table 4 Results of PLS-DA model based on 15 mineral elements and features extracted by PCA and VIP
特征变量选取方法无变量投影重要性指标法(VIP)主成分分析法(PCA)参数15 6 9训练集正确率/%74.00 62.00 74.00测试集正确率/%42.30 46.15 73.08变量数15 6 10
由表4 可知,使用PCA 选取特征变量建立的PLSDA 模型在训练集和测试集分别取得了74.00% 和73.08% 的正确率,与使用15 种矿质元素建立的模型相比,使用PCA 改进的PLS-DA 模型正确率有所提高且计算量有所下降。
PCA 通过对高维数据进行降维处理,将相关性高的变量转换为一系列相互独立的变量,常通过累计主成分的贡献率选取数据的主要特征分量[25]。矿质元素数据主成分的累计贡献率见图4。
图4 主成分的累计贡献率
Fig.4 Cumulative contribution of principal components
由图4 可知,选取前10 个主成分为特征变量时,主成分的累计贡献率达97.7%,可达到充分反映原始数据信息的目的。
在低级数据融合中,将冰糖橙的中红外光谱数据和矿质元素含量数据简单的串联,形成了一个大小为3 616×76 的矩阵,该矩阵包含了冰糖橙红外光谱和矿质元素的原始信息。在中级数据融合中,对于红外光谱信息采用4Sipls 的特征变量选取方法,选取包括1 150~1 000 cm-1 和1 450~1 300 cm-1 在内的多个波数范围,对于矿质元素信息则采用PCA 选取了累计贡献率达97.7%的前10 个主成分,它们共同组成一个大小为610×76 的矩阵。表5 显示了使用低级以及中级数据融合建立的PLS-DA 模型在冰糖橙产地鉴别中的性能。
表5 基于低级和中级数据融合策略建立的PLS-DA 模型结果
Table 5 Results of PLS-DA model based on low-level and midlevel data fusion strategies
数据融合策略低级数据融合中级数据融合参数15 15训练集正确率/%98.00 98.00测试集正确率/%92.31 100.00变量数3 616 610
由表5 可知,与使用单一技术相比,低级和中级数据融合策略均能提高鉴别模型的正确率,其中基于中级数据融合策略建立的PLS-DA 模型在训练集和测试集上分别取得98.00% 和100% 的正确率。这说明红外光谱结合矿质元素信息对模型的分类性能起协同作用,中级数据融合策略能够有效融合特征信息开发计算量低且正确率高的鉴别模型。
将矿质元素信息和中红外光谱信息与多种特征变量选取方法相结合建立PLS-DA 模型,对4 个产地的冰糖橙样品进行鉴别研究。中红外光谱显示冰糖橙的中红外吸收峰主要与糖类和蛋白质有关,Fe、K、Mg、P和Se 5 种矿质元素在冰糖橙的4 个产地之间均差异显著。将中红外光谱与Bipls、4Sipls 以及VIP 等多种特征变量选取方法相结合能够有效降低PLS-DA 模型运算量,提高正确率,使用4Sipls 选取特征变量建立的PLS-DA 模型在训练集和测试集上分别取得了98.00%和96.15%的正确率,4Sipls 选取的特征变量主要集中于1 150~1 000 cm-1 范围。使用PCA 选取矿质元素特征变量建立的PLS-DA 模型相较于使用15 种矿质元素建立的模型正确率更高且变量数更少。与使用单一技术建立模型相比,使用低级和中级数据融合策略都能有效提高模型的正确率,使用中级数据融合策略建立的PLS-DA 模型在训练集和测试集上分别取得98.00%和100%的正确率。结果表明,中红外光谱信息和矿质元素信息能从不同角度反映不同产地冰糖橙之间存在的差异,两种信息的融合能够提高冰糖橙产地鉴别的正确率。基于中级数据融合策略建立的PLSDA 模型能够实现冰糖橙产地的准确鉴别,为不同产地冰糖橙的进一步研究提供参考。
[1] CENTONZE V, LIPPOLIS V, CERVELLIERI S, et al. Discrimination of geographical origin of oranges (Citrus sinensis L. Osbeck) by mass spectrometry-based electronic nose and characterization of volatile compounds[J].Food Chemistry,2019,277:25-30.
[2] DE ANCOS B, RODRIGO M J, SÁNCHEZ-MORENO C, et al. Effect of high-pressure processing applied as pretreatment on carotenoids, flavonoids and vitamin C in juice of the sweet oranges ′Navel′ and the red-fleshed ′Cara Cara′[J]. Food Research International,2020,132:109105.
[3] LIN H F,HE C X,LIU H L,et al.NMR-based quantitative component analysis and geographical origin identification of China′s sweet orange[J].Food Control,2021,130:108292.
[4] MA X Q,LI N,GUO J,et al.Postharvest biology and technology involvement of CsPH8 in citrate accumulation directly related to fruit storage performance of′Bingtang′sweet orange mutants[J].Postharvest Biology and Technology,2020,170:111316.
[5] 严伟敏, 刘刚, 田雪, 等. 藜麦产地的红外光谱鉴别[J]. 化学试剂,2022,44(3):436-441.YAN Weimin, LIU Gang, TIAN Xue, et al. Identification of quinoa origin by infrared spectroscopy[J]. Chemical Reagents, 2022, 44(3):436-441.
[6] 李长滨,牛畅炜,苏丽,等.不同产地山药的近红外鉴别和差异分析[J].食品研究与开发,2022,43(15):175-181.LI Changbin, NIU Changwei, SU Li, et al. Identification and variance analysis of Chinese yam from different origins by near infrared spectroscopy[J]. Food Research and Development, 2022, 43(15):175-181.
[7] 张爱琴,郭斌,柳利龙,等.基于ICP-MS 的甘肃不同产地小米矿物元素含量特征及判别分析[J]. 食品工业科技, 2023, 44(7):301-310.ZHANG Aiqin, GUO Bin, LIU Lilong, et al. Characteristics of mineral elements contents and discriminant analysis of foxtail millet from different producing areas in Gansu Province based on ICPMS[J]. Science and Technology of Food Industry, 2023, 44(7): 301-310.
[8] ZHOU L, ZHANG C, QIU Z, et al. Information fusion of emerging non-destructive analytical techniques for food quality authentication: A survey[J]. Trends in Analytical Chemistry, 2020, 127:115901.
[9] 邓焯文,陈喆,付家顺,等.数据融合策略在食品产地溯源中的应用进展[J].分析化学,2022,51(1):11-21.DENG Zhuowen, CHEN Zhe, FU Jiashun, et al.Application progress of data fusion strategy in food origin traceability[J].Chinese Journal of Analytical Chemistry,2022,51(1):11-21.
[10] WANG Y, LI J, LIU H G, et al. Species and geographical origins discrimination of porcini mushrooms based on FT-IR spectroscopy and mineral elements combined with sparse partial least squarediscriminant analysis[J].Journal of Food Science,2019,84(8):2112-2120.
[11] COZZOLINO D, CYNKAR W U, SHAH N, et al. Can spectroscopy geographically classify Sauvignon Blanc wines from Australia and New Zealand?[J].Food Chemistry,2011,126(2):673-678.
[12] PEI Y F,ZUO Z T,ZHANG Q Z,et al.Data fusion of Fourier transform mid-infrared (MIR) and near-infrared (NIR) spectroscopies to identify geographical origin of wild Paris polyphylla var. yunnanensis[J].Molecules,2019,24(14):2559.
[13] 张娇,王元忠,杨维泽,等.ATR-FTIR 和UV-Vis 结合数据融合策略鉴别滇黄精产地[J].光谱学与光谱分析,2021,41(5):1410-1416.ZHANG Jiao, WANG Yuanzhong, YANG Weize, et al. Data fusion of ATR-FTIR and UV-vis spectra to identify the origin of Polygonatum kingianum[J].Spectroscopy and Spectral Analysis,2021,41(5):1410-1416.
[14] BALLABIO D, CONSONNI V. Classification tools in chemistry.Part 1:Linear models.PLS-DA[J].Analytical Methods,2013,5(16):3790-3798.
[15] WANG Y,LI M G,FENG T,et al.Discrimination of Radix Astragali according to geographical regions by data fusion of laser induced breakdown spectroscopy(LIBS)and infrared spectroscopy(IR)combined with random forest (RF)[J]. Chinese Journal of Analytical Chemistry,2022,50(3):100057.
[16] LIU L,ZUO Z T,WANG Y Z,et al.A fast multi-source information fusion strategy based on FT-IR spectroscopy for geographical authentication of wild Gentiana rigescens[J]. Microchemical Journal,2020,159:105360.
[17] ROBERT C, JESSEP W, SUTTON J J, et al. Evaluating low- midand high-level fusion strategies for combining Raman and infrared spectroscopy for quality assessment of red meat[J].Food Chemistry,2021,361:130154.
[18] DHAULANIYA A S, BALAN B J, SODHI K K, et al. Qualitative and quantitative evaluation of corn syrup as a potential added sweetener in apple fruit juices using mid-infrared spectroscopy assisted chemometric modeling[J]. LWT-Food Science and Technology,2020,131:109749.
[19] SHEN F, WU Q F, SU A X, et al. Detection of adulteration in freshly squeezed orange juice by electronic nose and infrared spectroscopy[J].Czech Journal of Food Sciences,2016,34(3):224-232.
[20] GÓMEZ-MONTAÑO F,ORDUÑA-DÍAZ A,AVELINO-FLORES M,et al. Specific optical-based biosensor to rapid detection of Salmonella typhimurium using FT-IR: Evaluation in natural orange juice,as an application in food products[J]. Revista Mexicana de Ingeniería Química,2021,20(3):23-43.
[21] LEOPOLD L F, LEOPOLD N, DIEHL H A, et al. Quantification of carbohydrates in fruit juices using FT-IR spectroscopy and multivariate analysis[J].Spectroscopy,2011,26(2):93-104.
[22] WANG X,ESQUERRE C,DOWNEY G,et al.Development of chemometric models using Vis-NIR and Raman spectral data fusion for assessment of infant formula storage temperature and time[J].Innovative Food Science&Emerging Technologies,2021,67:102551.
[23] 胡翼然,李杰庆,刘鸿高,等.红外光谱的随机森林算法与数据融合策略对绒柄牛肝菌产地鉴别[J].光谱学与光谱分析,2020,40(5):1495-1502.HU Yiran, Ll Jieqing, LlU Honggao, et al. Infrared spectral study on the origin identification of boletus tomen-tipes based on the random forest algorithm and data fusion strategy[J]. Spectroscopy and Spectral Analysis,2020,40(5):1495-1502.
[24] MACHADO J C,FARIA M A,FERREIRA I M P L V O,et al.Varietal discrimination of hop pellets by near and mid infrared spectroscopy[J].Talanta,2018,180:69-75.
[25] QI L M, LI J Q, LIU H G, et al. An additional data fusion strategy for the discrimination of porcini mushrooms from different species and origins in combination with four mathematical algorithms[J].Food&Function,2018,9(11):5903-5911.
Data Fusion of Mid-infrared Spectra and Mineral Elements to Identify Origin of Bingtang Sweet Oranges
吴衷宇,汪禄祥,刘兴勇,等.中红外光谱和矿质元素数据融合鉴别冰糖橙产地[J].食品研究与开发,2024,45(23):133-139.
WU Zhongyu,WANG Luxiang,LIU Xingyong,et al.Data Fusion of Mid-infrared Spectra and Mineral Elements to Identify Origin of Bingtang Sweet Oranges[J].Food Research and Development,2024,45(23):133-139.