• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于中文姓名匹配的方法和系統(tǒng)技術方案

    技術編號:10367295 閱讀:179 留言:0更新日期:2014-08-28 11:10
    本發(fā)明專利技術涉及一種用于中文姓名匹配的方法和系統(tǒng)。接收中文姓名并將其用羅馬字母拼寫成漢語拼音表示。將所述中文姓名的所述漢語拼音表示與源自多個不同中文字符姓名的一組用羅馬字母拼寫的中文姓名相匹配。響應于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本。在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應用原生腳本比較以獲得匹配得分。所述原生腳本比較包括逐字符比較、字符變體查找和/或有關姓名組成未對齊的考慮。將所獲得的匹配得分用作過濾器以便減少在將所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。

    【技術實現(xiàn)步驟摘要】
    用于中文姓名匹配的方法和系統(tǒng)
    本專利技術涉及姓名匹配,更具體地說,涉及原生腳本和跨腳本中文姓名匹配。
    技術介紹
    中文字符(在中文中稱為漢字,在日語中稱為日本漢字,在朝鮮語中稱為朝鮮漢字)用于在多種語言中表示姓名,每種語言可以針對相同的基本姓名使用不同的字符。即使在中文本身中,也存在區(qū)域變體。例如,在中國大陸和新加坡,使用簡體字符集,而臺灣和香港使用繁體字符。在廣泛采用統(tǒng)一碼(Unicode)之前,針對中文字符使用不同的編碼系統(tǒng),并且一個編碼系統(tǒng)支持的字符范圍很可能不同于另一個編碼系統(tǒng)。將來自一個區(qū)域的電子文本呈現(xiàn)為可由來自另一個區(qū)域的人們讀取的版本時,不僅需要轉換編碼系統(tǒng),而且還需要更改區(qū)域特定的字符。例如,中華人民共和國建國之父的姓名在中國大陸表示為‘丨*澤東”,在臺灣表示為才數(shù)翻”,在日本表示為才嬌翻”。統(tǒng)一碼聯(lián)盟保留大范圍的代碼點,以便覆蓋幾乎所有使用中的中文字符。這具有許多優(yōu)點,但也產生一些新的挑戰(zhàn)。一個此類挑戰(zhàn)是使用什么區(qū)域變體不再明顯,因為只要具有適當?shù)淖煮w支持,區(qū)域變體便可以以相同的文本顯示。上面提及的變體姓名才澤東”、才數(shù)翻”、才嬌翻”以及甚至才嬌東”可以全部存在于單個人名數(shù)據(jù)庫中。如果給出任何一個變體作為查詢姓名,則姓名匹配技術必須能夠匹配所有其它變體。現(xiàn)有姓名搜索系統(tǒng)沒有這種能力。盡管谷歌搜索引擎(全球最受歡迎的搜索引擎之一)可讓用戶指定繁體和簡體中文作為兩個不同的語言選項,但是當以其它語言選項指定返回結果時,它不會自動將采用繁體中文字符的查詢轉換為其簡體字符等效物,也不會自動將采用簡體中文字符的查詢轉換為其繁體字符等效物。百度搜索引擎(它是中國最受歡迎的搜索引擎之一)也沒有這種能力。上面描述的問題因跨腳本姓名匹配而加重。已經建議和實現(xiàn)各種技術,特別是在跨語言信息檢索和機器翻譯方面,包括音譯、回音譯、并行姓名數(shù)據(jù)庫以及機器學習。但是,此類系統(tǒng)通常忽略一個腳本中的姓名可能在另一個腳本中具有多個表示,這或者是因為源姓名具有幾種讀法(例如,日本漢字姓名),或者是因為源語言在目標語言中具有多種音譯系統(tǒng)(例如,拼音、威妥瑪-翟理斯拼音和耶魯拼音實現(xiàn)用羅馬字母拼寫漢語)。即使當存在這些音譯標準時,某個人也可能選擇不同于任何標準慣例的形式。漢語中的所有中文字符都是單音節(jié)的。在中文計數(shù)聲調中僅有大約1,350個獨特音節(jié),或者當不考慮聲調時,具有大約410個獨特音節(jié)。在具有數(shù)萬個中文字符的情況下,單個音節(jié)因此可以由許多不同的字符表示。因此,可以將可采用一系列不同中文字符寫出的姓名音譯成相同的用羅馬字母拼寫的形式。換言之,在漢字姓名及其用羅馬字母拼寫的形式之間具有多對一關系。因此,有利的是具有一種中文姓名匹配系統(tǒng),該系統(tǒng)能夠使中文字符變體和用羅馬字母拼寫的變體兩者匹配,同時明顯減少錯誤肯定的數(shù)量,這些錯誤肯定可能由于中文字符及其用羅馬字母拼寫的形式之間的多對一關系所致。
    技術實現(xiàn)思路
    根據(jù)本專利技術的一個實施例,描述一種用于中文姓名匹配的技術。接收中文姓名并將其用羅馬字母拼寫成漢語拼音表示。將所述中文姓名的所述漢語拼音表示與源自多個不同中文字符姓名的一組用羅馬字母拼寫的中文姓名相匹配。響應于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本。在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應用原生腳本比較以獲得匹配得分。所述原生腳本比較包括逐字符比較、字符變體查找和/或有關姓名組成未對齊的考慮。將所獲得的匹配得分用作過濾器以便減少在將所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。在以下附圖和描述中提供了本專利技術的一個或多個實施例的細節(jié)。從說明書和附圖以及權利要求,本專利技術的其它特性和優(yōu)點將顯而易見。【附圖說明】圖1示出根據(jù)一個實施例的其中可以實現(xiàn)中文姓名匹配的計算機系統(tǒng)(10);圖2示出根據(jù)一個實施例的用于中文姓名匹配的處理器(200);圖3示出根據(jù)一個實施例的圖2的中文字符比較步驟212的詳細視圖;圖4示出根據(jù)一個實施例的其中可以實現(xiàn)中文人名音譯的計算機系統(tǒng)(AlO);圖5示出根據(jù)一個實施例的用于中文人名音譯的過程(A200);圖6是根據(jù)一個實施例的圖5的姓名模式解析步驟A204的更詳細視圖;圖7是根據(jù)一個實施例的圖5的音譯步驟A206的更詳細視圖。不同附圖中的相同參考符號指示相同元素。【具體實施方式】在此描述的各實施例涉及用于中文姓名匹配的技術,這些技術能夠使中文字符變體和用羅馬字母拼寫的變體相匹配,同時明顯減少由中文字符及其用羅馬字母拼寫的形式之間的多對一關系導致的錯誤肯定的數(shù)量。根據(jù)各實施例,首先通過中文姓名音譯算法用羅馬字母拼寫中文姓名,該算法在本申請說明書的附件中描述。直接使用符合標準漢語拼音表示的用羅馬字母拼寫的姓名進行跨語言姓名匹配,就像已經采用以羅馬字母拼寫的形式或者已經從其它受支持腳本(例如阿拉伯語、西里爾文等)用羅馬字母拼寫的姓名。如果查詢姓名和返回姓名都是中文字符,則應用原生腳本比較。這包括逐字符比較、字符變體查找以及考慮姓名組成未對齊。將中文姓名匹配用作過濾器,以便減少從用羅馬字母拼寫的比較生成的錯誤肯定。所屬
    的技術人員知道,本專利技術的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算機程序產品。因此,本專利技術的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,本專利技術的各個方面還可以實現(xiàn)為在一個或多個計算機可讀介質中的計算機程序產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。可以采用一個或多個計算機可讀介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者上述的任意合適的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。計算機可讀的信號介質可以包括例如在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括一但不限于一電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質可以是計算機可讀存儲介質以外的任何計算機介質,該計算機介質可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當?shù)慕橘|傳輸,包括一但不限于一無線、有線、光纜、RF等等,或者上述的任意合適的組合。可以以一種或多種程序設計語言的任意組合來編寫用于執(zhí)行本專利技術的各個方面的操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言一諸如Ja本文檔來自技高網
    ...

    【技術保護點】
    一種用于中文姓名匹配的計算機實現(xiàn)的方法,包括:由處理器接收中文姓名;由所述處理器將所接收的中文姓名用羅馬字母拼寫成漢語拼音表示;由所述處理器將所述中文姓名的所述漢語拼音表示與一組用羅馬字母拼寫的中文姓名相匹配,其中所述用羅馬字母拼寫的中文姓名源自多個不同的中文字符姓名;響應于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,由所述處理器檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本;以及由所述處理器在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應用原生腳本比較作為過濾器,以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。

    【技術特征摘要】
    2013.02.26 US 13/777,6081.一種用于中文姓名匹配的計算機實現(xiàn)的方法,包括: 由處理器接收中文姓名; 由所述處理器將所接收的中文姓名用羅馬字母拼寫成漢語拼音表示; 由所述處理器將所述中文姓名的所述漢語拼音表示與一組用羅馬字母拼寫的中文姓名相匹配,其中所述用羅馬字母拼寫的中文姓名源自多個不同的中文字符姓名; 響應于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,由所述處理器檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本;以及 由所述處理器在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應用原生腳本比較作為過濾器,以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。2.根據(jù)權利要求1的方法,其中所述原生腳本比較包括以下項中的一個或多個:逐字符比較、字符變體查找以及有關姓名組成未對齊的考慮。3.根據(jù)權利要求1的方法,其中所述原生腳本比較產生匹配得分,其中將所述匹配得分用作過濾器以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。4.根據(jù)權利要求1的方法,其中用羅馬字母拼寫所述中文姓名包括: 將所接收的中文姓名解析成姓氏和名字; 將所標識的姓氏和所標識的名字音譯成用羅馬字母拼寫的表示;以及將所述姓氏和所述名字的所述用羅馬字母拼寫的表示規(guī)范化為與標準的用羅馬字母拼寫的中文取名慣例一致的表示。5.根據(jù)權利要求1的方法,其中僅當所接收的中文姓名和所述用羅馬字母拼寫的中文姓名的所述原始中文腳本是相同腳本時才執(zhí)行應用所述原生腳本比較。6.根據(jù)權利要求1的方法,其中在中文變體表中執(zhí)行字符變體查找,所述中文變體表包含多個字符對和用于每對字符的指示該對字符的密切相關程度的得分。7.根據(jù)權利要求1的方法,還包括: 基于有關姓名組成未對齊的考慮而調整所述匹配得分。8.一種用于中文姓名匹配的計算機系統(tǒng),所述系統(tǒng)包括...

    【專利技術屬性】
    技術研發(fā)人員:黃書東N·C·金
    申請(專利權)人:國際商業(yè)機器公司
    類型:發(fā)明
    國別省市:美國;US

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久无码AV中文出轨人妻| 免费无码又爽又刺激高潮的视频| 亚洲av无码一区二区三区四区| 日日摸日日踫夜夜爽无码| 97性无码区免费| 国产强伦姧在线观看无码| 亚洲av永久无码精品网站 | 最新亚洲春色Av无码专区| 精品久久久久久中文字幕无码 | 亚洲人成无码网站久久99热国产| 亚洲爆乳精品无码一区二区三区| 极品无码国模国产在线观看| 少妇精品无码一区二区三区| 无码h黄肉3d动漫在线观看| 亚洲AV无码一区二区乱孑伦AS| 亚洲人片在线观看天堂无码 | 亚洲精品高清无码视频| 精品无码成人网站久久久久久| 无码AV中文一区二区三区| 亚无码乱人伦一区二区| 四虎成人精品无码| 亚洲AV无码专区电影在线观看| 一本色道无码道在线| 国产成年无码久久久久下载| 亚洲AV无码久久久久网站蜜桃 | 久久精品无码一区二区三区日韩 | 亚洲aⅴ无码专区在线观看| 久久无码人妻一区二区三区午夜| 精品人妻少妇嫩草AV无码专区| 成人毛片无码一区二区| 亚洲av无码专区青青草原| 777爽死你无码免费看一二区| 久久久无码精品亚洲日韩蜜桃| 国产在线无码不卡影视影院 | 无码人妻黑人中文字幕| 亚洲AV无码一区二区二三区入口| 亚洲gv猛男gv无码男同短文| 国产精品免费无遮挡无码永久视频| 狠狠躁天天躁无码中文字幕图| 久久久久无码专区亚洲av| 中文字幕无码免费久久9一区9 |