本發明專利技術涉及一種印刷體漢字識別系統,本系統采用人工智能領域的新算法,有效地提高了漢字識別的質量,該系統包括:掃描輸入,將印刷在紙面上的漢字經光電轉換設備轉換成電信號,形成多灰度級的數字信號,輸入給計算機處理;模糊增強與聚類分割模塊,包括模糊增強與平滑、多灰度級最佳分割;圖象數據二值化,圖象的平滑和增強及多灰度級的聚類分割之后,采用整體閾值選擇法進行二值化,先統計出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當被分成的兩組間方差為最大時,確定閾值;漢字識別,本系統采用并行神經網絡方法,通過控制網絡CN對樣本進行粗分類,用識別網絡RN對各粗類進行細分類,從而識別漢字。
【技術實現步驟摘要】
本專利技術屬于模式識別
,具體涉及ー種采用人工智能領域的新算法的印刷體漢字識別系統。
技術介紹
自動文摘的研究是自然語言處理的ー個重要領域。但是目前所有的自動文摘模型均以文字的機內表示為系統輸入,與實用化的目標顯然還有相當大的差距,因為大量的文獻資料仍是以傳統的紙面印刷形式存在的。為此,本文提出了ー個印刷體漢字識別的并行神經網絡方法,并進行了實驗模擬。在對2500個漢字的測試中,識別率97%,誤識率1%,拒識率2%。應該指出,雖然我們的系統是就印刷體漢字而設計的,其基本實現原理和方法同樣適用于印刷體英文,以及手寫體數字、英文和漢字等符號的識別。 本系統進行印刷體漢字識別的主要步驟是掃描儀輸入一模糊增強與聚類分割一圖象數據ニ值化一通過并行神經網絡進行漢字匹配。
技術實現思路
本專利技術的目的是提供一種對輸入射頻數字信號輸出ー個至多個的精確中心頻點、帶寬控制,帶外信號抑制和信號増益功能的可調帶通濾波器系統。實現本專利技術目的的技術方案是ー種印刷體漢字識別系統,采用人工智能領域的新算法,有效地提高了漢字識別的質量,該系統包括掃描輸入,將印刷在紙面上的漢字經光電轉換設備轉換成電信號,形成多灰度級的數字信號,輸入給計算機處理;模糊增強與聚類分割模塊,包括模糊增強與平滑、多灰度級最佳分割;圖象數據ニ值化模塊,圖象的平滑和增強,以及多灰度級的聚類分割之后,這里采用整體閾值選擇法進行ニ值化,先統計出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當被分成的兩組間方差為最大時,確定閾值;漢字識別模塊,本系統采用并行神經網絡方法,通過控制網絡CN對樣本進行粗分類,用識別網絡RN對各粗類進行細分類,從而識別漢字。作為本專利技術的進ー步改進,所述模糊增強與平滑模塊采用S.K.Pal等提出的模型,自輸入到輸出,兩次應用模糊對比增強算子作模糊增強處理、其間一次平滑操作,為下一次增強作好準備。作為本專利技術的進ー步改進,所述聚類分割執行下列步驟(I)規定樣本間距,取K,C,R(K〈S) 3值,取K個樣本為凝集點;(2)計算這K個凝集點之兩兩間距,若最小距離〈C,則將相應兩點合井,并將兩點的算木均值作為新的凝集點;重復此步,直至全部間距> C為止;(3)在考察另(S-K)個樣本,每考察一個,便算出它與所有凝集點之間距,若最小距離〉R,則該樣本又作為新凝集點;若最小距離〈R便歸它于最近凝集點的類,接著重新計算這ー類之重心,并將此重心作為新凝集點,若凝集點之間距〉C,便考察下一祥本;反之進行步2,在凝集點合并之后,再考察下一祥本,直至歸類完畢;(4)再將全體樣本逐個考察一遍,按步3聚類,如果最終分類結果與原來相同,便不再計算重心;反之重新計算重心,若再考察一遍后,分類結果與原先相同,則聚類完畢;反之重復步4,直至與前分類結果完全相同;(5)以上聚類過程以分類數為3的狀態告終,從而可以產生分類數分別為Hi1,m2,...,me(me=3)的最好分割,再依公式(I)可分別求出相應的目標泛函權利要求1.一種印刷體漢字識別系統,該系統包括 掃描輸入,將印刷在紙面上的漢字經光電轉換設備轉換成電信號,形成多灰度級的數字信號,輸入給計算機處理; 模糊增強與聚類分割模塊,包括模糊增強與平滑、多灰度級最佳分割; 圖象數據二值化模塊,圖象的平滑和增強及多灰度級的聚類分割之后,采用整體閾值選擇法進行二值化,先統計出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當被分成的兩組間方差為最大時,確定閾值; 漢字識別模塊,本系統采用并行神經網絡方法,通過控制網絡CN對樣本進行粗分類,用識別網絡RN對各粗類進行細分類,從而識別漢字。2.根據權利要求I所述的一種印刷體漢字識別系統,其特征是,所述模糊增強與平滑模塊采用S. K. Pal等提出的模型,自輸入到輸出,兩次應用模糊對比增強算子作模糊增強處理、其間一次平滑操作,為下一次增強作好準備。3.根據權利要求I所述的一種印刷體漢字識別系統,其特征是,一幅圖象增強后的直方圖擁有S個亮度級Γι,r2,…,rs,其相應的概率密度為P1, P2,…,Ps,本系統將目標函數改與為4.根據權利要求I或3所述的一種印刷體漢字識別系統,其特征是,所述對S個亮度聚類分割執行下列步驟 (1)規定樣本間距,取K,C,R(K〈S) 3值,取K個樣本為凝集點; (2)計算這K個凝集點之兩兩間距,若最小距離〈C,則將相應兩點合并,并將兩點的算術均值作為新的凝集點;重復此步,直至全部間距> C為止; (3)在考察另(S-K)個樣本,每考察一個,便算出它與所有凝集點之間距,若最小距離>R,則該樣本又作為新凝集點;若最小距離〈R便歸它于最近凝集點的類,接著重新計算這一類之重心,并將此重心作為新凝集點,若凝集點之間距>C,便考察下一樣本;反之進行步.2,在凝集點合并之后,再考察下一樣本,直至歸類完畢; (4)再將全體樣本逐個考察一遍,按步3聚類,如果最終分類結果與原來相同,便不再計算重心;反之重新計算重心,若再考察一遍后,分類結果與原先相同,則聚類完畢;反之重復步4,直至與前分類結果完全相同; (5)以上聚類過程以分類數為3的狀態告終,從而可以產生分類數分別為Hl1,m2,…,me(me=3)的最好分割,再依公式(I)可分別求出相應的目標泛函5.根據權利要求I所述的一種印刷體漢字識別系統,其特征是,圖象數據二值化采用最大方差閾值設定法,首先統計出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當被分成的兩組間方差為最大時,確定閾值,執行下列步驟 (1)統計圖象中總象素數6.根據權利要求I所述的一種印刷體漢字識別系統,其特征是,漢字識別采用并行神經網絡方法通過控制網絡CN對樣本進行粗分類,用識別網絡RN對各粗類進行細分類,從而識別漢字,CN和RN采用Hopfield網。7.根據權利要求I或6所述的一種印刷體漢字識別系統,其特征是,采用一種新的追加學習算法,通過模擬人類的識字過程,即先學習部分漢字,然后逐漸學習其余漢字,最終實現對所有漢字的學習。8.根據權利要求I或7所述的一種印刷體漢字識別系統,所述追加學習算法執行下列步驟 (1)讓原有PNN識別V中的所有樣本,設正確識別的樣本集為V0; (2)對集合V-VO中的樣本進行如下劃分VT為V-Vtl中在PNN已學漢字中的樣本子集;VF為V-Vtl中不在PNN已學漢字中的樣本子集; (3)對Vt中的各個樣本,如果其相應的識別網絡PNi能對之進行正確識別,則無須再對RNi進行訓練,否則將這些樣本增加到RNi原有樣本集中,重新訓練RNi ; (4)對Vf中的所有樣本,訓練新的識別網絡RN’,RN’,…,RN’,設其所劃分的漢字子集相應為 U1’,U2’,…,Uq’ ; (5)用UU V樣本集重新訓練控制網絡CN。全文摘要本專利技術涉及一種印刷體漢字識別系統,本系統采用人工智能領域的新算法,有效地提高了漢字識別的質量,該系統包括掃描輸入,將印刷在紙面上的漢字經光電轉換設備轉換成電信號,形成多灰度級的數字信號,輸入給計算機處理;模糊增強與聚類分割模塊,包括模糊增強與平滑、多灰度級最佳分割;圖象數據二值化,圖象的平滑和增強及多灰度級的聚類分割之后,采用整體閾值選本文檔來自技高網...
【技術保護點】
一種印刷體漢字識別系統,該系統包括:掃描輸入,將印刷在紙面上的漢字經光電轉換設備轉換成電信號,形成多灰度級的數字信號,輸入給計算機處理;模糊增強與聚類分割模塊,包括模糊增強與平滑、多灰度級最佳分割;圖象數據二值化模塊,圖象的平滑和增強及多灰度級的聚類分割之后,采用整體閾值選擇法進行二值化,先統計出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當被分成的兩組間方差為最大時,確定閾值;漢字識別模塊,本系統采用并行神經網絡方法,通過控制網絡CN對樣本進行粗分類,用識別網絡RN對各粗類進行細分類,從而識別漢字。
【技術特征摘要】
【專利技術屬性】
技術研發人員:陶軍,
申請(專利權)人:蘇州工業園區七星電子有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。