背景
茶多酚是茶葉的重要組成部分,也是生物活性化學(xué)物質(zhì)的重要來(lái)源,具有抗氧化、抗癌、抗菌、抗炎和抗動(dòng)脈硬化的能力,在醫(yī)藥和食品工業(yè)中發(fā)揮著重要作用。高光譜成像技術(shù)是基于大量窄波段的圖像數(shù)據(jù)技術(shù)。它將成像技術(shù)與光譜技術(shù)相結(jié)合,檢測(cè)目標(biāo)的二維幾何空間和一維光譜信息,已被廣泛應(yīng)用于農(nóng)產(chǎn)品質(zhì)量檢測(cè)。
基于高光譜技術(shù)建立的模型結(jié)果受多種因素的影響。特征數(shù)據(jù)預(yù)處理方法是影響分析結(jié)果的主要因素。常見(jiàn)的光譜數(shù)據(jù)預(yù)處理方法包括正交信號(hào)校正(OSC)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNVT)、Savitzky-Gola濾波(SG)。結(jié)果表明,這些方法可以減少外界因素的影響,在一定程度上提高檢測(cè)的準(zhǔn)確性。
光譜特征波段的選擇是影響模型結(jié)果的另一個(gè)重要因素。有效地選擇特征波段可以節(jié)省計(jì)算資源,提高模型性能。近年來(lái),研究人員提出了許多特征波段選擇方法,如區(qū)間偏最小二乘(iPLS)、協(xié)同區(qū)間偏最小二乘(siPLS)、后向區(qū)間偏最小二乘(biPLS)。這些特征選擇算法將所有特征劃分為若干個(gè)區(qū)間,然后通過(guò)迭代選取區(qū)間中效果較好的一小部分作為特征集合。然而,通過(guò)這種“捆綁”方法選擇的光譜特征可能會(huì)遺漏一些重要特征。
為了避免手動(dòng)數(shù)據(jù)分割引起的偏差,有許多計(jì)算方法可用于樣本選擇,如隨機(jī)選擇(RS),Kennard-Stone(KS)或基于聯(lián)合x(chóng)-y距離(SPXY)的樣本集分割算法。
本研究旨在探討基于高光譜圖像技術(shù)的茶多酚含量快速無(wú)損在線(xiàn)檢測(cè)的可行性。采用不同的數(shù)據(jù)預(yù)處理方法對(duì)采集到的茶葉高光譜數(shù)據(jù)進(jìn)行處理。本文通過(guò)建立模型并對(duì)建模結(jié)果進(jìn)行分析,選擇了*佳的預(yù)處理方法。
試驗(yàn)設(shè)計(jì)
四川農(nóng)業(yè)大學(xué)康志亮團(tuán)隊(duì)共選出三個(gè)級(jí)別的雅安藏茶,獲取其茶多酚含量后,用SPXY算法對(duì)數(shù)據(jù)集進(jìn)行劃分(表1)。利用江蘇雙利合譜公司研制的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數(shù)據(jù),其有效光譜范圍為387 ~ 1035nm,光譜分辨率為2.8 nm,光譜通道為256條。把茶葉均勻地鋪在一個(gè)容器里(大約65厘米 × 65厘米)。高光譜采集系統(tǒng)如圖1所示。由于暗電流的影響,最終420 ~ 1010 nm波段被保留作為原始光譜數(shù)據(jù)。
表1 基于 SPXY 算法的茶多酚含量統(tǒng)計(jì)及樣品分配結(jié)果
圖1 高光譜成像系統(tǒng)示意圖
隨機(jī)噪聲通常是在獲取光譜時(shí)由外界環(huán)境、儀器響應(yīng)和其他與被測(cè)樣品性質(zhì)無(wú)關(guān)的因素產(chǎn)生的,并且光譜數(shù)據(jù)出現(xiàn)無(wú)序波動(dòng)。因此,本文采用了SG、MSC、SNVT、FD、SD和Z分?jǐn)?shù)標(biāo)準(zhǔn)化(ZSS)六種預(yù)處理算法來(lái)消除原始光譜數(shù)據(jù)中的噪聲。
本研究使用的SPXY算法是由KS(Kennard-Stone)算法發(fā)展而來(lái)。KS算法將所有樣本看作校準(zhǔn)集的候選樣本,并選擇進(jìn)入校準(zhǔn)集的歐幾里得度量最大的兩個(gè)樣本。然后,通過(guò)計(jì)算剩余樣本與校準(zhǔn)集中已知樣本之間的歐幾里得度量,選擇最接近選定樣本的兩個(gè)樣本并將其放入校準(zhǔn)集中,重復(fù)上述步驟,直到樣本數(shù)達(dá)到設(shè)定值。在SPXY計(jì)算樣本距離時(shí),同時(shí)考慮了樣本標(biāo)號(hào)(Y)和樣本特征(X)。
所獲得的高光譜數(shù)據(jù)往往包含大量冗余信息,這將對(duì)最終建模的準(zhǔn)確性和效率產(chǎn)生一定的影響。本研究使用六種方法,梯度提升(GB)、自適應(yīng)提升(AdaBoost)、隨機(jī)森林(RF)、分類(lèi)提升(CatBoost)、LightGBM和XgBoost來(lái)選擇高光譜特征波段。模型中使用了隨機(jī)森林回歸(RFR)、分類(lèi)提升回歸(CatBoostR)、LightGBM回歸(LightGBMR)、XGBoost回歸(XGBoostR)和模型集成策略用于預(yù)測(cè)茶多酚。
結(jié)論
梯度提升回歸(GBR)用于建模和預(yù)測(cè)原始數(shù)據(jù)和預(yù)處理的光譜數(shù)據(jù)?;诓煌A(yù)處理算法和不同樣本劃分算法的建模結(jié)果如圖2所示。如圖2a所示,校準(zhǔn)集的R2均大于0.96。RAW-KS-GBR模型效果*好。FD-KS-GBR模型校準(zhǔn)集R2*大的,為0.9857,但測(cè)試集R2最小,僅為0.6490,表明FD-KS-GBR模型存在嚴(yán)重的過(guò)擬合問(wèn)題。圖2b是基于SPXY劃分?jǐn)?shù)據(jù)集的建模結(jié)果。通過(guò)FD和SD預(yù)處理光譜數(shù)據(jù)建立的模型校準(zhǔn)集在0.98以上,但測(cè)試集R2不超過(guò)0.88。
圖2 不同輸入下GBR模型的預(yù)測(cè)結(jié)果?;贙S劃分?jǐn)?shù)據(jù)集的建模結(jié)果(a)、基于SPXY劃分?jǐn)?shù)據(jù)集的建模結(jié)果(b)。
KS算法比SPXY算法建立的模型更容易出現(xiàn)過(guò)擬合,因此SPXY-GBR模型總體上優(yōu)于KS-GBR模型?;趫D2,比較兩種不同的數(shù)據(jù)集劃分方法和六種不同的預(yù)處理算法建模結(jié)果,效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有最高的測(cè)試集R2,為0.9365,其校準(zhǔn)集R2也達(dá)到0.9563。這表明,以SG為預(yù)處理算法,SPXY為樣本分割法建立的模型不僅精度高,而且具有更好的魯棒性。綜上所述,最終選擇SG算法對(duì)藏茶原始高光譜數(shù)據(jù)進(jìn)行預(yù)處理。原始光譜曲線(xiàn)RAW和SG預(yù)處理后的光譜曲線(xiàn)如圖3所示。
圖3 藏茶光譜曲線(xiàn)。原始數(shù)據(jù)(a);通過(guò)SG算法預(yù)處理的數(shù)據(jù)(b);(c)圖為(a)中紅框的放大視圖;(d)圖為(b)中紅框的放大視圖。
SG算法預(yù)處理后的數(shù)據(jù)噪聲有了一定程度的改善,但數(shù)據(jù)中仍有大量與茶多酚含量預(yù)測(cè)無(wú)關(guān)的信息。如果不進(jìn)一步提取特征,高維數(shù)據(jù)無(wú)疑會(huì)影響模型的準(zhǔn)確性和魯棒性。本研究采用GB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個(gè)最重要光譜特征(圖4)。RF和CatBoost以522.66 nm波長(zhǎng)為第二重要特征,而XGBoost以564.55 nm波長(zhǎng)為*一重要特征,在GB中僅排名第五,在AdaBoost中排名第四,在RF中排名第七。不同算法提取的特征波長(zhǎng)大多分布在420 ~ 700 nm之間。試驗(yàn)結(jié)果表明,不同算法提取的特征波長(zhǎng)不同,但也有一定的共性。上述六種算法提取的特征將作為后續(xù)回歸預(yù)測(cè)算法的輸入。
表2展示了不同模型的全波段預(yù)測(cè)結(jié)果。CatBoostR模型具有最高的準(zhǔn)確度,在校準(zhǔn)和測(cè)試集上的R2分別為0.9578和0.9493。RFR模型預(yù)測(cè)效果較差,校準(zhǔn)R2僅為0.9040。
本研究以RFR、LightGBM和XGBoostR為三個(gè)基礎(chǔ)學(xué)習(xí)模型,以CatBoostR為元學(xué)習(xí)模型,建立了一個(gè)新的stacking預(yù)測(cè)模型(圖5)。表3展示了不同模型的預(yù)測(cè)結(jié)果。與全波段建模結(jié)果相比,即使特征維數(shù)降低,模型性能也沒(méi)有相應(yīng)降低。優(yōu)選特征在一定程度上提高了建模精度,并進(jìn)一步提高了模型魯棒性。CatBoostR模型的預(yù)測(cè)精度普遍可以接受,RMSEC小于0.35,RMSEP小于0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值最接近。因此,該模型被認(rèn)為是四個(gè)獨(dú)立模型中*好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果*優(yōu)。圖6a是CatBoost + stacking模型對(duì)藏茶茶多酚含量的預(yù)測(cè)結(jié)果。由于茶多酚含量在7%左右的樣本數(shù)量較少,SPXY沒(méi)有在該值附近分配測(cè)試集。因此,在SPXY劃分的數(shù)據(jù)集中,選擇對(duì)應(yīng)于校準(zhǔn)集中茶多酚含量為7.2671%的樣品作為測(cè)試樣本之一,選擇對(duì)應(yīng)于測(cè)試集中茶多酚含量為8.7892%的樣品作為校準(zhǔn)樣本之一。如果替換的數(shù)據(jù)被輸入到CatBoost + stacking模型中,校準(zhǔn)集R2為0.9686,RMSEC為0.2833,測(cè)試集R2為0.9577,RMSEP為0.3703。
綜上結(jié)果表明,新建立的stacking預(yù)測(cè)模型比個(gè)體回歸模型性能更優(yōu),可實(shí)現(xiàn)藏茶茶多酚含量的準(zhǔn)確預(yù)測(cè)。
圖4 由不同算法選擇的特征波段。GB(a);AdaBoost(b);RF(c);CatBoost(d);LightGBM(e)和XGBoost(f)。
表2 基于全波段的預(yù)測(cè)結(jié)果
圖5 用于茶多酚預(yù)測(cè)的stacking回歸模型流程
圖6 基于CatBoost + stacking模型的茶多酚預(yù)測(cè)結(jié)果。更換樣本前的預(yù)測(cè)結(jié)果(a)和更換樣本后的預(yù)測(cè)結(jié)果(b)。
作者信息
康志亮,博士,四川農(nóng)業(yè)大學(xué)機(jī)電學(xué)院教授,博士生導(dǎo)師。
主要研究方向:信號(hào)與信息處理、傳感器與檢測(cè)技術(shù)、自動(dòng)控制。
Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.
https://doi.org/10.3390/agriculture11070673
地址:無(wú)錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話(huà):13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號(hào)
電話(huà):13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號(hào)盛方科技園B座三層?xùn)|區(qū)
電話(huà):13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號(hào)四川國(guó)際大廈七樓G座
電話(huà):13810664973
郵箱:info@dualix.com.cn