背景
白細胞(White blood cells, WBCs)是血液的重要組成部分,具有抵抗病毒和細菌感染的功能。在一定的血容量中,白細胞的數(shù)量和比例為醫(yī)生診斷相應(yīng)疾病提供了有價值的信息。無論是白細胞計數(shù)還是形態(tài)檢測,需要解決的關(guān)鍵問題是實現(xiàn)白細胞的分類和識別。然而,傳統(tǒng)的顯微鏡方法嚴重依賴于操作人員的經(jīng)驗,檢測方法過于復(fù)雜。
近年來,相應(yīng)的計算機視覺算法和系統(tǒng)已廣泛應(yīng)用于血細胞自動檢測領(lǐng)域。然而,大多數(shù)識別算法只是將特征提取和分類模塊按順序疊加在一起。當樣本空間較小或類間差距不明顯時,這些算法的泛化能力和穩(wěn)定性就無法得到保證。深度學(xué)習(xí)具有準確、**、穩(wěn)定的特點,這在醫(yī)學(xué)領(lǐng)域和大量圖像的分析和處理中具備巨大應(yīng)用價值。但是常用的僅基于具有細胞空間特征的灰度或RGB圖像,容易受到多種環(huán)境因素的影響,如顯微鏡的光學(xué)條件、載玻片的厚度等。
高光譜成像(Hyperspectral imaging, HIS)技術(shù)是圖像和光譜技術(shù)的結(jié)合。獲得的高光譜數(shù)據(jù)包含被檢測目標的空間和光譜特征。雖然HSI在空間特征的基礎(chǔ)上提供了豐富的光譜信息,但數(shù)百個窄波段使得每張高光譜圖像占用過多的內(nèi)存,巨大的計算資源占用使得快速檢測難以實現(xiàn)。降低計算成本的有效方法是從整個高光譜圖像中選取目標區(qū)域作為感興趣區(qū)域(Region of interest, ROI),只計算ROI的光譜信息。然而,ROI的獲取必須是手工的,不能滿足快速和自動的要求。
具體研究內(nèi)容如下:(1)利用高光譜顯微成像(Hyperspectral microscopic imaging, HMI)系統(tǒng)獲取血液涂片中含有白細胞區(qū)域的影像,并對每種類型的白細胞進行標記,形成五種分類的數(shù)據(jù)集。(2)根據(jù)VGG16網(wǎng)絡(luò)架構(gòu)構(gòu)建一維CNN網(wǎng)絡(luò),并基于WBC的光譜數(shù)據(jù)進行相應(yīng)的訓(xùn)練和預(yù)測,驗證光譜數(shù)據(jù)作為WBC分類依據(jù)的可行性。(3)與一維CNN相似,采用Faster RCNN作為對照組,基于偽彩色圖像對WBC進行識別分類,觀察基于單一數(shù)據(jù)的分類準確率。(4)最后,構(gòu)建了基于圖像和光譜特征的多數(shù)據(jù)Faster RCNN深度學(xué)習(xí)模型,并探討多數(shù)據(jù)聯(lián)合在白細胞檢測中的可行性和優(yōu)勢。
試驗設(shè)計
大連工業(yè)大學(xué)王慧慧教授團隊使用如圖1b所示的HMI系統(tǒng)采集血液圖片的高光譜數(shù)據(jù)。它由一個image-λ -N17E近紅外高光譜成像系統(tǒng)(江蘇雙利合譜公司)和一個三目生物顯微鏡(Nikon Eclipse 80i)和鹵光源組成。高光譜數(shù)據(jù)的波長范圍為382.3 ~ 1020.2 nm,光譜分辨率為1.8 nm。
為了驗證高光譜成像數(shù)據(jù)用于WBC分類的可行性,本研究構(gòu)建三種網(wǎng)絡(luò)模型并探索其性能:基于WBC光譜數(shù)據(jù)的一維CNN、基于WBC圖像特征的Faster RCNN和基于融合光譜和圖像特征的多數(shù)據(jù)Faster RCNN。一維CNN參考VGG16,具體結(jié)構(gòu)如圖2所示。圖3是Faster RCNN的詳細結(jié)構(gòu)。其特征提取網(wǎng)絡(luò)為Resnet18,RPN網(wǎng)絡(luò)可以大大提高檢測WBC等小目標的能力。最后,Dense和Softmax層將建議的框坐標和特定WBC類別作為Faster RCNN的輸出。對原有的Faster RCNN網(wǎng)絡(luò)進行修改,即在Faster RCNN的結(jié)構(gòu)中加入光譜數(shù)據(jù)提取模塊、光譜特征提取網(wǎng)絡(luò)(一維CNN)和特征融合(Concatenate)層,構(gòu)建多數(shù)據(jù)Faster RCNN檢測模型(圖4)。
圖1 主要研究流程圖
圖2 基于光譜數(shù)據(jù)的一維CNN結(jié)構(gòu)
圖3 Faster RCNN的結(jié)構(gòu)
圖4 多數(shù)據(jù)Faster RCNN
結(jié)論
如圖5所示,在450 ~ 570 nm波長范圍內(nèi)存在一個明顯的吸收谷,在640 ~ 680 nm波長范圍內(nèi)存在一個較小的吸收谷。5種白細胞中,Neu、Eos、Lym和Mon含有酸性磷酸酶和過氧化物酶,Bas含有大量的肝素和組胺酶。同時,Neu還含有堿性磷酸酶,Eos含有芳基硫酸酯酶,Lym含有游離核糖體,Mon含有非特異性酯酶。所有這些成分都是蛋白質(zhì)。因此,我們認為光譜反射率的差異是由于每個白細胞中所含酶的差異造成的,這兩個吸收谷可能是白細胞檢測模型的重點關(guān)注區(qū)域。
圖5所有WBC(a)和五種WBC(b)的平均光譜反射率曲線
一維CNN對WBC的分類結(jié)果如圖6所示。從圖中可以清楚地看到,模型在第20次迭代時基本收斂,校準集和驗證集的損失分別為0.19和0.26,說明一維CNN對WBC光譜數(shù)據(jù)具有較強的適應(yīng)性,適合分類。從混淆矩陣可以看出,每次分類的準確率都達到90%以上,沒有出現(xiàn)過擬合現(xiàn)象,說明該模型具有很好的泛化能力。模型的精度隨著召回率的增加而降低。另外,大多數(shù)白細胞的PR曲線在下降之前是穩(wěn)定的,而Lym和Mon的PR曲線波動幅度較小,推測這兩種白細胞中的酶相似,因此它們的光譜反射率非常接近,使得模型難以有效區(qū)分。
圖6 一維CNN的分類結(jié)果
WBC二維偽彩色圖像應(yīng)用于Faster RCNN建模。從圖7的光譜波段權(quán)重可視化可以看出,模型主要關(guān)注400 ~ 570 nm和640 ~ 700 nm范圍內(nèi)的波段。這兩個范圍內(nèi)的波段被模型賦予了更多權(quán)重,從而包含了更多用于WBC識別的特征信息。在上述波段范圍內(nèi),在420.8 nm、536.5 nm和672.8 nm處存在較強的光譜響應(yīng)峰和波谷,表明其對應(yīng)的圖像將包含較強的響應(yīng)信息,選擇這些波峰和波谷進行偽彩色圖像合成。然后,將這三個波段對應(yīng)的單通道光譜圖像分別映射到R、G、B三個顏色通道進行合成。
圖8顯示了基于Faster RCNN的5種WBC類別在兩種不同圖像下的檢測結(jié)果。圖9展示了Faster RCNN模型的具體分類結(jié)果。從模型訓(xùn)練的角度來看,總損失在20次迭代之前迅速下降,80次迭代之后趨于平緩,基本收斂,這證明了Faster RCNN在本W(wǎng)BC圖像數(shù)據(jù)集中是可行的。與一維CNN相比,F(xiàn)aster RCNN不僅在訓(xùn)練過程中收斂速度更慢,而且在Neu和Eos中的分類準確率也要低得多。然而,由于Lym的形態(tài)特征與Neu和Eos有很大的不同,因此不會與這兩者混淆。
圖10為從預(yù)測集得到的CAM圖。重點著色的區(qū)域基本集中在白細胞的細胞核上,這證明該模型主要根據(jù)細胞核的特征來區(qū)分不同的白細胞。而Lym和Mon的細胞核占據(jù)了大部分的細胞空間,使得細胞核的形態(tài)特征難以識別,導(dǎo)致模型將背景中一些顏色更深、體積更大的紅細胞誤識別為Lym或Mon。然而,紅細胞與白細胞在組成上有很大的不同,這使得它們在光譜反射率上更容易被識別。為此,建立基于光譜反射率和圖像特征的多數(shù)據(jù)Faster RCNN聯(lián)合檢測模型,利用光譜和圖像的融合特征,提高模型對WBC的分類精度。
圖7 基于預(yù)測集WBC光譜波長的梯度加權(quán)類激活映射
圖8 基于偽彩色圖像的Faster RCNN對白細胞的檢測結(jié)果
圖9 Faster RCNN的分類結(jié)果
圖10 基于Faster RCNN的預(yù)測集梯度加權(quán)類激活映射
圖11詳細展示了多數(shù)據(jù)Faster RCNN的分類結(jié)果。當?shù)螖?shù)達到40次時,校準集和驗證集的總損失值分別下降0.008和0.03,然后趨于穩(wěn)定,證明模型訓(xùn)練效果良好。與前兩種模型相比,Lym或Mon的分類精度有所提高。此外,各類別之間的混淆較少,表明該模型的預(yù)測能力得到了提高。從圖11c和表1可以看出,Lym和Mon的AP值改善最為明顯,分別達到0.917和0.911。融合特征的分類不僅減少了白細胞之間的誤判,而且有效地減少了背景與白細胞目標之間的誤判。證明了多數(shù)據(jù)聯(lián)合檢測相對于單一數(shù)據(jù)檢測的可行性和優(yōu)勢。
多數(shù)據(jù)Faster RCNN在預(yù)測集中得到的CAM圖如圖12所示。與單一數(shù)據(jù)一維CNN聚焦的400 ~ 570 nm和640 ~ 700 nm波段范圍相比,多數(shù)據(jù)Faster RCNN模型在融合特征的指導(dǎo)下,聚焦的波段范圍分別為380 ~ 570 nm和640 ~ 950 nm。同時,與單一數(shù)據(jù)Faster RCNN相比,背景的注意區(qū)域明顯變窄,暗紅色區(qū)域更集中在核區(qū)。這表明該模型更關(guān)注細胞的各種特征,而不是背景,有利于在復(fù)雜情況下準確檢測白細胞,提高模型的泛化能力。
與現(xiàn)有的白細胞檢測方法相比,多數(shù)據(jù)Faster RCNN可以實現(xiàn)大量白細胞樣本的自動快速檢測,并且HMI的引入可以獲得高質(zhì)量的細胞高光譜圖像,大大提高了檢測的準確性。該研究為其他生物試驗的高效準確開展提供了技術(shù)參考。
圖11 多數(shù)據(jù)Faster RCNN的分類結(jié)果
表1 多數(shù)據(jù)Faster RCNN在不同WBC分類中的性能比較
圖12 多數(shù)據(jù)Fasteer RCNN在預(yù)測集中的梯度加權(quán)類激活映射
作者信息
王慧慧,博士,大連工業(yè)大學(xué)機械工程與自動化學(xué)院教授,博士生導(dǎo)師。
主要研究方向:基于機器視覺的智能檢測研究、裝備數(shù)字化設(shè)計。
參考文獻:
Zeng, F., Du, Z., Li, G., Li, C., Li, Y., He, X., An, Y., & Wang, H. (2023). Rapid detection of white blood cells using hyperspectral microscopic imaging system combined with Multi-data Faster RCNN. Sensors and Actuators B: Chemical, 389.
https://doi.org/10.1016/j.snb.2023.133865
地址:無錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號盛方科技園B座三層?xùn)|區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號四川國際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn