本發明專利技術涉及一種基于改進距離核主成分分析的手寫體數字識別方法,屬于模式識別與人工智能領域。本發明專利技術的特征在于,采用MNIST數據庫作為實驗對象,首先對樣本進行二值化預處理,將處理后的樣本數據利用距離核映射的核特征空間,在核特征空間利用K均值聚類將訓練樣本集分為N類子集,然后在核空間中計算核矩陣的特征向量得到變換矩陣,利用變換矩陣進行特征提取,將提取的特征數據集放入支持向量機建立訓練模型,最后利用模型預測測試樣本的識別率。本發明專利技術可以很好的提高手寫體數字識別率高,減少運行時間,并且可以解決大樣本的計算代價巨大的問題。
【技術實現步驟摘要】
本專利技術涉及字符識別
,尤其涉及一種基于改進的距離核主成分分析的手寫體數字識別方法,屬于模式識別領域。
技術介紹
手寫體數字識別具有非常廣泛的應用,如銀行,郵局,稅務等。雖然人們在文字識別的研究中已取得很多成就,但距真正意義上的應用還有一定的距離。數字識別的關鍵在于特征提取,選取的特征要具有可分辨性、可靠性、獨立性。目前,數字特征提取的方法有很多,主要可以分為統計特征方法和結構特征方法。主成分分析(Principal Component Analysis, PCA)是模式識別領域中一種經典的特征抽取方法,但是在非線性數據分布情況下該方法不夠理想,由于真實的數字圖像中存在著光照、旋轉等非線性變化,主成分分析作為一種線性方法不能很好的描述這些非線性特征。B.SckilkopI'提出將核方法推廣到核空間的核主成分分析(KPCA)方法可以很好的解決非線性問題并且KPCA在人臉識別等方面取得了非常好的成果。但對于大樣本的手寫體數字來說,由于KPCA計算過程中的復雜性而面臨巨大的計算代價,這就限制了它的實用性。基于此,有必要改進KPCA,并可以將其應用在實際的手寫體數字識別系統中。為了解決KPCA處理大樣本問題時計算代價大的問題,首先將距離核函數作為KPCA的核函數,因為在計算核矩陣的過程中,該函 數不需要進行復雜的高維運算,因而不會增加時間的耗費。與此同時,采用基于K均值聚類的方法對映射到核特征空間的訓練樣本進行子集劃分,劃分為若干子集,并將每個子集在特征空間中的協方差矩陣用一些特征向量近似表示,基于這種近似表示,使KPCA在求解過程,只需對一個階數等于這些特征向量數目之和的核矩陣進行特征值分解即可,這種方法簡單有效。
技術實現思路
本專利技術的手寫體數字識別方法是為了提高手寫體數字識別率,解決標準核成分分析應用在大樣本數據集上計算復雜度高的問題,提出一種基于改進的距離核主成分分析的數字特征提取方法,并且利用支持向量機(SVM)作為分類器,以達到較高的手寫體數字識別準確率。為了解決上述技術問題,本專利技術在計算機中按以下技術方案予以實現:(I)將手寫體數字樣本以特征向量的形式輸入計算機。采用MNIST數據庫,把數據庫中樣本進行解壓縮,得到單個圖像樣本的形式,將這些樣本進行二值化預處理后以特征向量的形式輸入計算機。(2)選擇距離核函數,利用非線性映射Φ將原始空間樣本映射到核特征空間F中;(a)選擇一種新的可用于核學習方法的核函數,距離核函數:K (Xi, Xj) =< φ (Xi),φ (Xj) > = -C I I X1-Xj Ild(I)其中參數0〈d彡2,c為常數,當d=2時,核KPCA等于PCA。(b)選擇核函數之后要確定核函數的參數c和d的值,由于參數的選擇沒有嚴格的理論依據,采用多次實驗驗證的方法來選擇最優參數,將樣本值代入核函數計算,這樣就將原始空間樣本映射到核特征空間F中;(c)對每一個訓練樣本的映射樣本數據進行標準化處理,得到:本文檔來自技高網...
【技術保護點】
一種基于改進距離核主成分分析的手寫體數字識別方法,其特征在于:具體方法在計算機中是按以下步驟實現的:步驟(1),將手寫體數字樣本以特征向量的形式輸入計算機,首先將MNIST手寫體數字數據庫進行解壓,分解為單個圖像的形式,其中包括:60000個訓練樣本和20000個測試樣本,設定:從中選擇至少20000個訓練樣本L組成訓練樣本數據集合,用{L}表示,每副圖像表示為:xl,l=1,2,…,l…,L,其中,每副圖像的大小為28×28個像素點,L個訓練樣本圖像共有L×784個像素點,L個訓練樣本內樣本數據的協方差矩陣R為:R=1LΣl=1LxlxlT---(1)步驟(2),選擇距離核函數K(xi,xj),利用非線性映射集合Φ把原始空間的訓練數據集L映射到核特征空間F中;步驟(2.1),設定Φ為每個所述訓練樣本xl的非線性映射關系Φ(xl)的集合,Φ={Φ(x1),Φ(x2),…Φ(xl),…Φ(xL)},則距離核函數K(xi,xj)定義為訓練樣本數據集L中任意兩個樣本xi,xj的非線性映射關系Φ(xi),Φ(xj)的內積:K(xi,xj)=<Φ(xi),Φ(xj)>,i∈L,j∈L,當把原始空間的訓練樣本數據集L用距離核函數K(xi,xj)映射到核特征空間F中時:K(xi,xj)=<Φ(xi),Φ(xj)>=?c||xi?xj||d,0≤d≤2,當取c=1時,d=0.3,得到訓練樣本的數據映射樣本集;步驟(2.2),對每一個訓練樣本的映射樣本數據進行標準化處理,得到:φ(xij)=Φ(xij)-A‾jSj---(2)其中樣本均值:Φ(xij)表示每個樣本的像素集合,第j個樣本的標準差:得到標準化后的訓練樣本的數據映射樣本集如下:φ={(φ(x11),...,φ(x1M)),(φ(x21),…φ(x2M)),(φ(xL1),…φ(xLM))},M=784;步驟(3),采用K均值聚類的方法將步驟(2)得到的標準化的訓練樣本的訓練數據映射樣本集數據分成N類子集;步驟(3.1),在核特征空間F中,將標準化后的訓練樣本的訓練數據映射樣本集L隨機分成N類,每一類的訓練數據映射樣本個數相等,每一類的訓練數據映射樣本個數為Ln,則n=1,2,…,n,…,N,將每一類的訓練數據映射樣本的均值作為初始聚類中心的集合,NCn=1LnΣn=1Lnφ(xni),n=1,2,…,n,…N,i=1,2,…,Ln?????(3)其中,φ(xni)是第n類的第i個樣本在核特征空間F上的投影;步驟(3.2),在核特征空間F中分別計算每一個標準化后的訓練數據映射樣本φ(x)與N個初始聚類中心的距離D:D=||φ(x)-Cn||2=||φ(x)-1LnΣn=1Lnφ(xni)||2???????????(4)=<φ(x),φ(x)>-2Ln<φ(x),Σi=1Lnφ(xni)>+1Ln2Σl=1LnΣm=1Ln<φ(xnl),φ(xnm)>,l∈Ln,m∈Ln,l≠m其中,φ(xnl),φ(xnm)分別表示第n類的第l個樣本和第m個樣本;步驟(3.3),根據步驟(3.2)所得到的結果,若給定訓練樣本x的標準化訓練數據映射樣本φ(x)與第n個初始聚類中心的距離最小,則給定的訓練樣本x屬于第n個初始聚類中心所在的類別,從而得到N類子集;步驟(3.4),對于步驟(3.3)中得到的每類子集,分別以每個訓練數據映射樣本為類中心,計算類內其它各映射樣本的樣本點到類中心的距離,并算出距離之和,距離之和最小的類中心就是該類的類中心cn*。最小的距離之和就是該類的誤差平方和,將各類的誤差平方和加起來就得到總的誤差平方和的值D*,計算公式 如下:D*=Σn=1NΣi=1Ln||φ(xi)-cn*||---(5)其中D*表示總的誤差平方和,cn*表示更新后的聚類中心;步驟(3.5),重復步驟(3.3)和步驟(3.4),直到N類子集總的誤差平方和的變化值小于設定的誤差平方和變化值ΔD為止,ΔDRn=Σj=1Lnλjnvjn(vjn)T=Σj=1Lnv·jn(v·jn)T,j=1,2,...,Ln---(6)其中,為核矩陣Knn的單位特征向量,其對應特征值為步驟(4.2),根據累積貢獻率選擇Rn的最...
【技術特征摘要】
1.一種基于改進距離核主成分分析的手寫體數字識別方法,其特征在于:具體方法在計算機中是按以下步驟實現的: 步驟(1),將手寫體數字樣本以特征向量的形式輸入計算機,首先將MNIST手寫體數字數據庫進行解壓,分解為單個圖像的形式,其中包括:60000個訓練樣本和20000...
【專利技術屬性】
技術研發人員:于乃功,焦盼娜,林佳,阮曉鋼,李勇,許鋒,王琳,陳煥朝,徐麗,
申請(專利權)人:北京工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。