A method and apparatus for determining the degree of text shape near are provided, the method comprises (A) will be the first text comparison and second text respectively, image format conversion, in order to obtain the corresponding first picture and the second picture; (B) to determine the first picture and the second picture of the pixel matching between; and (C) to determine the pixel matching is determined based on the first second words between text and shape close degree. In according to an embodiment of the present invention method and apparatus for determining a character shape near degree, can be converted to text based on pixel image format after matching to determine the extent of the text in which is no longer limited to any degree, encoding rules and become a common way to determine nearly word.
【技術(shù)實(shí)現(xiàn)步驟摘要】
用于確定文字形近度的方法和設(shè)備
本專(zhuān)利技術(shù)總體說(shuō)來(lái)涉及計(jì)算機(jī)信息處理,更具體地說(shuō),涉及一種基于計(jì)算機(jī)信息處理來(lái)確定文字形近度的方法和設(shè)備。
技術(shù)介紹
在諸如中文、日文、韓文等語(yǔ)言中,存在大量字形上近似的文字,這些形近字的存在很容易導(dǎo)致文字使用上的錯(cuò)誤。過(guò)去較多地依靠人力來(lái)查找錯(cuò)誤使用的形近字,但由于形近字本身容易混淆,導(dǎo)致不僅需要耗費(fèi)大量的人力,而且難免錯(cuò)漏的情況。隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多地采用自動(dòng)識(shí)別的方式來(lái)查找形近字。通常,在文字基于字形被編碼(例如,按照編碼規(guī)則被轉(zhuǎn)換為由1-5位字符(例如,字母或數(shù)字等)組成的碼字)的情況下,可基于碼字之間的編輯距離來(lái)確定文字之間的形近程度,這里,作為示例,編輯距離可基于碼字之間字符的增加、刪減或改換來(lái)計(jì)算。例如,公開(kāi)號(hào)為CN103399907A的中國(guó)專(zhuān)利申請(qǐng)《一種基于編輯距離計(jì)算中文字符串相似度的方法及裝置》公開(kāi)了一種基于編輯距離計(jì)算中文字符串相似度的方法,其采用四角號(hào)碼編碼將字符串中的漢字轉(zhuǎn)換成四角編碼,從而基于編輯距離計(jì)算漢字的相似度。上述文字編碼對(duì)編碼規(guī)則的依賴極強(qiáng),然而,這些編碼規(guī)則無(wú)法有效地刻畫(huà)部首與部首之間的相似度。以漢字為例,五筆碼、倉(cāng)頡碼、四角碼等均基于漢字的部首和/或筆畫(huà)等組件,但是編碼結(jié)果之間的編輯距離常常無(wú)法體現(xiàn)出漢字之間的相似程度,例如,“宇”字的五筆編碼為“PGFJ”,“盱”字的五筆編碼為“HGFJ”,兩者之間的編輯距離僅僅為1,但這兩個(gè)字在視覺(jué)上并不相似。又例如,“操”字的四角編碼為56094,“燥”字的四角編碼為96894,兩個(gè)碼字之間僅有2個(gè)相同字符,編輯距離較大,然而這兩個(gè)字 ...
【技術(shù)保護(hù)點(diǎn)】
一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。
【技術(shù)特征摘要】
1.一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。2.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況。3.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。4.如權(quán)利要求1所述的方法,還包括步驟(D)和步驟(E),其中,所述方法在步驟(A)之前,執(zhí)行步驟(D):確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量,其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則所述方法執(zhí)行步驟(A)、步驟(B)和步驟(C);否則,所述方法執(zhí)行步驟(E):基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度。5.如權(quán)利要求1到4之中的任一權(quán)利要求所述的方法,其中,所述方法針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述方法還包括:(F)針對(duì)每個(gè)第一文字,選擇與所...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:王珵,
申請(qǐng)(專(zhuān)利權(quán))人:第四范式北京技術(shù)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:北京,11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。