• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于確定文字形近度的方法和設(shè)備技術(shù)

    技術(shù)編號(hào):15691540 閱讀:62 留言:0更新日期:2017-06-24 04:49
    提供了一種用于確定文字形近度的方法和設(shè)備,所述方法包括(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。在根據(jù)本發(fā)明專(zhuān)利技術(shù)示例性實(shí)施例的用于確定文字形近度的方法和設(shè)備中,可基于文字轉(zhuǎn)換為圖片格式之后的像素匹配程度來(lái)判斷文字的形近程度,從而不再受限于任何編碼規(guī)則而成為一種通用的形近字確定方式。

    Method and apparatus for determining text shape proximity

    A method and apparatus for determining the degree of text shape near are provided, the method comprises (A) will be the first text comparison and second text respectively, image format conversion, in order to obtain the corresponding first picture and the second picture; (B) to determine the first picture and the second picture of the pixel matching between; and (C) to determine the pixel matching is determined based on the first second words between text and shape close degree. In according to an embodiment of the present invention method and apparatus for determining a character shape near degree, can be converted to text based on pixel image format after matching to determine the extent of the text in which is no longer limited to any degree, encoding rules and become a common way to determine nearly word.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    用于確定文字形近度的方法和設(shè)備
    本專(zhuān)利技術(shù)總體說(shuō)來(lái)涉及計(jì)算機(jī)信息處理,更具體地說(shuō),涉及一種基于計(jì)算機(jī)信息處理來(lái)確定文字形近度的方法和設(shè)備。
    技術(shù)介紹
    在諸如中文、日文、韓文等語(yǔ)言中,存在大量字形上近似的文字,這些形近字的存在很容易導(dǎo)致文字使用上的錯(cuò)誤。過(guò)去較多地依靠人力來(lái)查找錯(cuò)誤使用的形近字,但由于形近字本身容易混淆,導(dǎo)致不僅需要耗費(fèi)大量的人力,而且難免錯(cuò)漏的情況。隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多地采用自動(dòng)識(shí)別的方式來(lái)查找形近字。通常,在文字基于字形被編碼(例如,按照編碼規(guī)則被轉(zhuǎn)換為由1-5位字符(例如,字母或數(shù)字等)組成的碼字)的情況下,可基于碼字之間的編輯距離來(lái)確定文字之間的形近程度,這里,作為示例,編輯距離可基于碼字之間字符的增加、刪減或改換來(lái)計(jì)算。例如,公開(kāi)號(hào)為CN103399907A的中國(guó)專(zhuān)利申請(qǐng)《一種基于編輯距離計(jì)算中文字符串相似度的方法及裝置》公開(kāi)了一種基于編輯距離計(jì)算中文字符串相似度的方法,其采用四角號(hào)碼編碼將字符串中的漢字轉(zhuǎn)換成四角編碼,從而基于編輯距離計(jì)算漢字的相似度。上述文字編碼對(duì)編碼規(guī)則的依賴極強(qiáng),然而,這些編碼規(guī)則無(wú)法有效地刻畫(huà)部首與部首之間的相似度。以漢字為例,五筆碼、倉(cāng)頡碼、四角碼等均基于漢字的部首和/或筆畫(huà)等組件,但是編碼結(jié)果之間的編輯距離常常無(wú)法體現(xiàn)出漢字之間的相似程度,例如,“宇”字的五筆編碼為“PGFJ”,“盱”字的五筆編碼為“HGFJ”,兩者之間的編輯距離僅僅為1,但這兩個(gè)字在視覺(jué)上并不相似。又例如,“操”字的四角編碼為56094,“燥”字的四角編碼為96894,兩個(gè)碼字之間僅有2個(gè)相同字符,編輯距離較大,然而這兩個(gè)字的相似度實(shí)則極高。此外,對(duì)于筆畫(huà)數(shù)特別少的文字,例如,“二”和“三”、“干”和“于”,也難以通過(guò)碼字之間的編輯距離來(lái)判斷近似性??梢钥闯觯诖a字之間的編輯距離來(lái)判斷文字近似性時(shí)必然受到編碼規(guī)則的限制,也就是說(shuō),編碼時(shí)損失掉的那部分文字特點(diǎn)信息導(dǎo)致難以有效地衡量文字的形近程度。
    技術(shù)實(shí)現(xiàn)思路
    本專(zhuān)利技術(shù)的示例性實(shí)施例旨在克服現(xiàn)有技術(shù)中難以準(zhǔn)確識(shí)別形近文字的缺陷。根據(jù)本專(zhuān)利技術(shù)的示例性實(shí)施例,提供一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度??蛇x地,在所述方法中,在步驟(A)中,按照點(diǎn)陣字體將第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換。可選地,在所述方法中,在步驟(B)中,以單個(gè)像素為單位來(lái)確定第一圖片與第二圖片之間的像素匹配情況。可選地,在所述方法中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況??蛇x地,在所述方法中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度??蛇x地,在所述方法中,所述至少一種幾何變換包括平移變換、縮放變換、刪行變換和刪列變換之中的至少一種??蛇x地,在所述方法中,在步驟(B)中,通過(guò)考慮非空白像素之間的匹配情況來(lái)確定第一圖片與第二圖片之間的像素匹配情況??蛇x地,所述方法還包括步驟(D)和步驟(E),其中,所述方法在步驟(A)之前,執(zhí)行步驟(D):確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量,其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則所述方法執(zhí)行步驟(A)、步驟(B)和步驟(C);否則,所述方法執(zhí)行步驟(E):基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度??蛇x地,在所述方法中,所述方法針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述方法還包括:(F)針對(duì)每個(gè)第一文字,選擇與所述每個(gè)第一文字形近度較高的至少一個(gè)第二文字作為所述每個(gè)第一文字的形近字,并建立由所述多個(gè)第一文字及其形近字組成的形近字庫(kù)。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種執(zhí)行文字校對(duì)的方法,包括:確定待校對(duì)文字;從基于本專(zhuān)利技術(shù)示例性實(shí)施例建立的形近字庫(kù)中搜索所述待校對(duì)文字的形近字;以及輸出搜索到的所述待校對(duì)文字的形近字。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種用于確定文字形近度的設(shè)備,包括:轉(zhuǎn)換裝置,用于將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;匹配確定裝置,用于確定第一圖片與第二圖片之間的像素匹配情況;以及形近度確定裝置,用于基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。可選地,在所述設(shè)備中,轉(zhuǎn)換裝置按照點(diǎn)陣字體將第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換。可選地,在所述設(shè)備中,匹配確定裝置以單個(gè)像素為單位來(lái)確定第一圖片與第二圖片之間的像素匹配情況。可選地,在所述設(shè)備中,匹配確定裝置包括:二值化處理單元,用于對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及匹配單元,用于確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況??蛇x地,在所述設(shè)備中,匹配確定裝置包括:變換單元,用于對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及匹配單元,用于確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,形近度確定裝置包括:候選形近度確定單元,用于分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及最高形近度確定單元,用于將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。可選地,在所述設(shè)備中,所述至少一種幾何變換包括平移變換、縮放變換、刪行變換和刪列變換之中的至少一種??蛇x地,在所述設(shè)備中,匹配確定裝置通過(guò)考慮非空白像素之間的匹配情況來(lái)確定第一圖片與第二圖片之間的像素匹配情況??蛇x地,所述設(shè)備還包括:筆畫(huà)確定裝置,用于確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量;其中,如果筆畫(huà)確定裝置確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則轉(zhuǎn)換裝置執(zhí)行圖片格式轉(zhuǎn)換,匹配確定裝置確定像素匹配情況,并且形近度確定裝置基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度;否則,形近度確定裝置基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度??蛇x地,所述設(shè)備針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述設(shè)備還包括:字庫(kù)建立裝置,用于針對(duì)每個(gè)第一文字,選擇與所述每個(gè)第一文字形近度較高的至少一個(gè)第二文字作為所述每個(gè)第一文字的形近字,并建立由所述多個(gè)第一文字及其形近字組成的形近字庫(kù)。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種執(zhí)行文字校對(duì)的設(shè)備,包括:文字確定裝置,用于確定待校對(duì)文字;形近字搜索裝置,本文檔來(lái)自技高網(wǎng)
    ...
    用于確定文字形近度的方法和設(shè)備

    【技術(shù)保護(hù)點(diǎn)】
    一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。

    【技術(shù)特征摘要】
    1.一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。2.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況。3.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。4.如權(quán)利要求1所述的方法,還包括步驟(D)和步驟(E),其中,所述方法在步驟(A)之前,執(zhí)行步驟(D):確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量,其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則所述方法執(zhí)行步驟(A)、步驟(B)和步驟(C);否則,所述方法執(zhí)行步驟(E):基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度。5.如權(quán)利要求1到4之中的任一權(quán)利要求所述的方法,其中,所述方法針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述方法還包括:(F)針對(duì)每個(gè)第一文字,選擇與所...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:王珵
    申請(qǐng)(專(zhuān)利權(quán))人:第四范式北京技術(shù)有限公司,
    類(lèi)型:發(fā)明
    國(guó)別省市:北京,11

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 制服在线无码专区| 精品无码国产一区二区三区51安| 亚洲AV无码一区二区三区鸳鸯影院| 亚洲av无码专区在线| 无码少妇A片一区二区三区| 无码综合天天久久综合网| 中文字幕无码AV波多野吉衣| 日韩精品无码成人专区| 无码国产精品一区二区免费3p| 蜜臀亚洲AV无码精品国产午夜.| 久久久久亚洲av无码尤物| 亚洲 无码 在线 专区| 久久久无码精品亚洲日韩按摩| 内射人妻少妇无码一本一道 | 国精品无码一区二区三区在线| 亚洲爆乳AAA无码专区| 无码aⅴ精品一区二区三区浪潮| 国产精品毛片无码| 无码h黄肉3d动漫在线观看| 99精品一区二区三区无码吞精| 伊人久久精品无码二区麻豆| 一道久在线无码加勒比| 国产成人精品无码专区| 精品无码人妻一区二区三区18| 无码夫の前で人妻を侵犯| 亚洲AV无码1区2区久久| 国产V亚洲V天堂A无码| 国产成年无码AV片在线韩国| 国产精品无码DVD在线观看| 成人免费a级毛片无码网站入口 | 亚洲av永久无码| 精品人妻大屁股白浆无码| 亚洲AV无码一区二区二三区入口| av无码aV天天aV天天爽| 国产免费av片在线无码免费看| 免费无码A片一区二三区| 亚洲AV色无码乱码在线观看| 久久精品无码中文字幕| 性色AV无码中文AV有码VR| 在线A级毛片无码免费真人| 国产精品va无码二区|