基于地面成像高光譜的石碑文字信息提取研究
0 引言
石碑作為古時代的文化產物,它是人類征服自然、改造自然的物質文化結晶,也是古代精神文明的外在表現。它作為時代界標矗立于世,見證了中國古代社會歷史的變遷,維系了時代精神。然而現存的一些石碑已經破損,表面的文字和圖案信息模糊不清,這些石碑文物不僅是藝術作品也具有重要的研究價值,因此保護石碑就是保護珍稀的歷史文物,搶救石碑就是搶救不可再生的傳統(tǒng)文化。
隨著科學技術的發(fā)展,高光譜技術在文物保護中的應用越來越多。高光譜遙感是20世紀80年代興起的新型對地觀測技術,是當前遙感的前沿技術。高光譜數據具有波段數目多,波段寬度窄,波段分布連續(xù),光譜分辨率高,圖譜合一等特點,基于高光譜數據完整而豐富的特點,利用高光譜技術,對石碑上存在的信息進行提取分析,以期提取和重現石碑上的原有信息。譚克龍等以秦始皇陵區(qū)為研究區(qū),較系統(tǒng)地闡述了高光譜遙感在考古中的創(chuàng)新應用研究,以及所取得的考古成果;侯妙樂等基于高光譜數據設計了半自動提取壁畫底稿信息的“三步法”,實現基于特征波段合成影像的壁畫底稿信息提??;Scholten等通過對高光譜影像分析,參考不同墨水的波譜特性,提取了部分底稿的歷史文本信息;郭丹彤對沙巴卡石碑及其學術價值進行了研究,沙巴卡石碑的學術價值體現在語言、政治、宗教等方面,但它最重要的學術價值則體現在哲學上;田子馥等以7塊石碑為實證,說明東北文化從上古時期就是以漢族漢字文化為主體,多民族的文化形成多元一體的文化形態(tài),并且闡述了東北文化主體性、重疊性、相對性的本質特征。但這些研究的對象都是比較完好的石碑,對于破損和表面信息模糊缺失的石碑沒有進行應用研究。
本文基于閾值的最小噪聲分離變換(Minimum Noise Fraction Rotation,MNF Rotation)算法并應用到提取石碑特征信息中,分離了高光譜數據中的有效信息和噪聲,降低了數據維數,并將原始數據轉換到新的數據空間中,然后從中選取體現石碑特征信息效果最好的特征波段,為進一步利用挖掘對石碑上的特征信息提供技術基礎。
1、 材料與分析
試驗中的石碑分別由北京大學考古文博學院、山西博物院提供,石碑出土時石碑上有部分被土覆蓋,對石碑表面覆蓋的土層進行簡單的剝離處理,可以看到石碑上有模糊的文字存在。
石碑的高光譜圖像采集是運用江蘇雙利合譜科技有限公司自主研發(fā)的便攜式高光譜成像儀系統(tǒng)GaiaFiled。該系統(tǒng)由多維運動控制器(二維運動控制平臺,掃描維度和調焦維度控制平臺),成像鏡頭、光譜相機(面陣探測器)和成像光譜儀組成,支持自動曝光、自動掃描速度匹配、自動調焦等功能。圖1為GaiaField便攜式高光譜成像儀的實體圖,表1為高光譜相機的參數。
圖1 GaiaField便攜式高光譜成像儀實體圖
表1 GaiaFiled高光譜分選儀系統(tǒng)參數
序號 |
相關參數 |
V10 |
1 |
光譜范圍 |
400-1000 nm |
2 |
光譜分辨率 |
4.0±0.3 nm |
3 |
像面尺寸 |
6.45×8.8mm |
4 |
倒線色散 |
93.9nm/mm |
5 |
相對孔徑 |
F/2.8 |
6 |
雜散光 |
<0.5% |
7 |
波段數 |
520 |
8 |
成像鏡頭 |
23 mm |
圖像采集軟件采用江蘇雙利合譜科技有限公司提供的高光譜成像系統(tǒng)采集軟件SpecView完成。圖像處理采用 ENVI5.3 軟件進行處理。在進行圖像處理之前,先要對采集的光譜圖像進行圖像校正,圖像校正公式如下:
(1)
式中,Rref 是校正過的圖像,DNraw 是原始圖像,DNwhite為白板校正圖像,DNdark是黑板校正圖像。
試驗得到的光譜含有由儀器和試驗條件等引起的噪聲,對這些噪聲的處理有助于減少噪聲對光譜分析的影響,突出光譜的有效信息。Savitzky-Golay (SG)平滑算法可以有效消減光譜數據中的隨機噪聲,消噪效果受平滑點數的影響,本文中選擇SG二次多項式5點平滑對光譜數據進行處理。
由于高光譜遙感數據波段多,波段間存在很大相關性,為了克服維數災難,利用最小噪聲分離變換進行波段選擇,達到優(yōu)化數據,去除噪聲和數據降維的目的。
最小噪聲分離變換( MNF)是對主成分變換( PCA) 的一種改進方法。PCA 是一種線性變換,變換后各主成分分量彼此之間互不相關,隨著主成分的增加該分量包含的信息量減小,第一主成分包含的信息量最大,第二主成分與第一主成分無關且在剩余成分中包含的信息量最大,依此類推。但PCA對噪聲比較敏感,在變換后的主成分分量中,信息量大的信噪比不一定高,當某個信息量大的主成分中包含的噪聲的方差大于信號的方差時,該主成分分量形成的圖像質量就差。針對 PCA 變換的不足,Green 和 Berman 提出最小噪聲分離變換( MNF),它不但能判定圖像數據內在的維數( 波段數) ,分離數據中的噪聲,而且能減少隨后處理中的計算需求量。MNF 變換是基于圖像質量的線性變換,變換結果的成分按照信噪比從大到小排列。經過MNF變換大部分噪聲集中在特征小的分量中。而不像 PCA變換按照方差由大到小排列,從而克服了噪聲對影像質量的影響。
本文分析的對象由北大考古文博學院、山西博物院提供,如圖 2 所示為使用高光譜成像相機拍攝的數據合成的真彩色圖像。從圖2可知,石碑里的文字有些已經風化變的模糊不清,難以用肉眼識別出來。
圖2 北大考古文博學院與山西博物院石碑RGB真彩色合成圖(從左到右)
對原始高光譜數據進行 MNF 變換(如圖3) ,分別得到以有效信息為主的波段和以噪聲為主的波段,并且按照信噪比從大到小的順序排列。原始數據的主要信息都集中在前面特征值大的波段,后面特征值小的波段主要以噪聲為主。特征值接近于1的多數是噪聲,最好選擇特征值高的波段。根據MNF變換特征值曲線確定閾值為 8,選擇變換后的維數為 8。
圖 3 MNF 變換后的特征值曲線(從左到右:考古文博學院、山西博物院)
2.3 特征信息提取分析
在進行 MNF 變換后的波段中,選擇特征值大,圖像信息顯示效果突出的波段。在原始高光譜圖像中右下角可以模糊地看到有圖案存在,分別加載MNF 變換后第 1- 8波段影像,發(fā)現北京大學考古文博學院提供的石碑在MNF變換的第 4波段顯示的文字部分較為清晰(圖4a),山西博物院提供的石碑在MNF變換的第1波段顯示的文字較為清晰,如圖4b所示。在MNF變換中,通過信號與噪聲分離,使信息更加集中在有限的特征集中,一些微弱信息則在去噪轉化中被增強。同時在MNF轉化過程中,使光譜特征向類特征向量匯集,增強分類信息。在MNF變換后的特征域中不同的波段具有不同的光譜信息。比如北京大學考古文博學院提供的石碑在變換后的MNF波段1代表整個波段的亮度背景,即光譜背景,在影像上都較其他的MNF波段亮,第8波段以后出現隨機噪聲。
圖4a 北京大學考古文博學院石碑文字信息提取結果對比圖
圖4b 山西博物院石碑文字信息提取結果對比圖
對比原始高光譜數據,由表 2 可知,MNF 變換后的數據量也有效地降低,提高了數據的處理速度。
表 2 數據對比
數據 |
北大考古文博院 |
山西博物院 |
原始數據 |
598,560 KB |
549,144 KB |
MNF變換后數據 |
468,776 KB |
418,631 KB |
針對高光譜數據信息量豐富,但數據冗余且包含噪聲的特點,本文基于最小噪聲分離變換算法有效地對石碑高光譜圖像進行降維和去噪處理,分離了圖像中的有效信息和噪聲,減小了后期處理的數據量,提高了數據處理效率。通過對石碑高光譜數據進行最小噪聲分離變換,提取了原始影像中模糊不清的文字,實驗結果對于后期石碑的文字修復和研究提供了參考和借鑒。
地址:無錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關村大街19號
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號盛方科技園B座三層東區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號四川國際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn