• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于識別名稱集中的非獨特名稱的方法與系統技術方案

    技術編號:8532930 閱讀:180 留言:0更新日期:2013-04-04 15:57
    本發明專利技術公開了用于識別名稱集中的非獨特名稱的方法和系統。針對第一實體獲得名稱集。響應于比較該名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似。搜索所述第一名稱和第二名稱中的起首字母。響應于搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述至少一個起首字母與所述第一名稱和第二名稱中的另一個名稱中的對應起首字母相匹配,并把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱。應用交叉實體打分技術,這種技術使用用于第一實體的名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱。

    【技術實現步驟摘要】
    用于識別名稱集中的非獨特名稱的方法與系統
    本專利技術的實施方式涉及識別名稱集中的非獨特名稱。
    技術介紹
    實體解析(或者身份消歧)技術可以用于確定什么時候兩個或更多個實體(例如,人、建筑物、地方、組織、文檔、汽車、事物、其它對象,等等)盡管有不同的描述但是代表相同的物理實體。有時候這些技術被稱為重復數據刪除、匹配/合并、身份解析、語義和解或者有其它的名稱。例如,包含CustID#1[BobJones,位于123MainStreet,生日(DOB)為6/21/45]的第一個記錄有可能代表與包含CustID#2[BobKJones,位于123S.MainStreet,DOB為6/21/1945]的第二個記錄相同的實體。實體解析可以在單個數據源中用于找出重復,跨數據源確定完全不同的事務如何關聯到一個實體,或者同時用在多個數據源中和跨多個數據源使用。實體解析的結果可以用包含身份數據陣列的數據集提供。然而,存在許多其主要識別屬性是名稱的數據集。對于任何實體,都可以存在代表該實體的多個名稱,有些名稱不如其它名稱獨特。作為一個實體獨特表示的名稱是增加對其身份的理解或者提供對其身份的更多前后關系的名稱。名稱可以包括以下中的一個或多個:姓或起首字母,中間名或起首字母,名或起首字母,等等。以下是一個例子,其中實體1有三個名稱(即,實體1的表示),而實體2有兩個名稱(即,實體2的表示)。實體1:實體2:JOHNB.SMITHJOHNDAVIDSMITHJOHNBRIANSMITHPETETHOMPSONJOHNSMITH基于各種匹配特征(例如,每個名稱的相同的社會保險號),可以知道用于單個實體的多個名稱與那單個實體關聯。因而,盡管JOHNDAVIDSMITH和PETETHOMPSON看起來不一樣,但是仍然知道這兩個名稱與實體2關聯。實體1中的名稱JOHNSMITH是實體1中每個其它名稱的顯然非獨特的重復性表示。名稱JOHNSMITH沒有增加對實體1中名稱的任何前后關系或者理解。另外,實體1中的名稱JOHNSMITH也可能是實體2中名稱JOHNDAVIDSMITH的非獨特表示。在嘗試確定兩個實體的名稱的相似度時,實體解析系統可以執行交叉實體打分技術,該技術執行名稱叉積的成對比較(例如,在比較的每一對名稱中,一個名稱來自實體1,而另一個名稱來自實體2)并且為每對名稱產生一個得分,可能產生以下結果:這個例子中最高的得分來自于與實體1最不獨特表示的名稱(JOHNSMITH)的比較。盡管這可能是合理的得分,但是這個得分并沒有準確地表示實體中的名稱多相似或者多不同。相反,最高的得分指示這些實體是非常相似的,但是事實上,它們有一些顯著的沖突(中間名)。類似地,最低的得分是從比較非常不同的名稱(PETETHOMPSON)產生的。同樣,這個低得分是合理的,但是最低的得分可能沒有準確地反映兩個實體中名稱之間的相似度。即使實體解析系統使用得分的平均值,而不是最高或最低得分,來基于這些得分決定這些名稱的相似度,結果也將最有可能偏離更高。有些系統可以采取統計方法,其中給定名稱的基數(cardinality)直接關聯到數據集中實例的個數。這種方法可以假定不偏的數據集,可以假定不知道名稱的真正區別,而且可以僅僅依賴于名稱在給定數據集中的出現。而且,這種方法可以假定包含全世界名稱的學習集。有些系統可以采取生存方法。生存是把每個實體向下減少到只有最佳元素的過程。在這種系統中,實體將不包含多個名稱,因為生存規則將把一列名稱減少到一個名稱。一般來說,生存規則是簡單的規則(例如,最長的串或者最多的詞)。
    技術實現思路
    提供了用于識別名稱集中的非獨特名稱的方法、計算機程序產品和系統。該名稱集是針對第一實體獲得的。響應于比較該名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似。搜索所述第一名稱和第二名稱中的起首字母。響應于所述搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述至少一個起首字母匹配所述第一名稱和第二名稱中的另一個中的對應起首字母,而且所述第一名稱和第二名稱中的一個被標記為非獨特名稱。應用交叉實體打分技術,該技術利用用于所述第一實體的所述名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱。附圖說明現在參考附圖,其中貫穿所有附圖,相同的標號都代表對應的部件:圖1以框圖例示了根據某些實施方式的計算設備。圖2A和2B以流程圖例示了根據某些實施方式的由實體解析系統執行的用以檢測實體集中的獨特名稱的邏輯。圖3以流程圖例示了根據某些實施方式的由實體解析系統執行的用以確定第一名稱和第二名稱是否相似的邏輯。圖4以框圖例示了根據某些實施方式的來自用于名稱比較的原型的打分日志。圖5以框圖例示了根據某些實施方式可以使用的計算機體系結構。具體實施方式為了說明,給出本專利技術各種實施方式的描述,但所述描述不是詳盡的或者限定到所公開的實施方式。在不背離所述實施方式的范圍與主旨的范圍內,許多修改和變化對于本領域普通技術人員都是顯而易見的。在此所使用的術語選擇成最好地解釋所述實施方式的原理、實踐應用或者超越市場中可以找到的技術的技術改進,或者使本領域普通技術人員能夠理解在此所公開的實施方式。圖1以框圖例示了根據某些實施方式的計算設備100。計算設備100包括實體解析系統110。計算設備100耦合到數據倉庫(datastore)150。數據倉庫150存儲用于多個實體(例如,人、建筑物、地方、組織、文檔、汽車、事物、其它對象,等等)的多個名稱。在某些實施方式中,數據倉庫150是數據庫。關系數據庫是計算機化信息存儲與檢索系統。關系數據庫組織成包含數據行與列的表。行可以稱為元組(tuple)或者記錄或者行。一個數據庫一般有許多表,而且每個表一般都有多個記錄和多個列。實體解析系統110獲得用于單個實體的多個名稱。實體解析系統110比較一個實體的兩個名稱(例如,用于實體1的兩個名稱)并確定這兩個名稱中的一個是否是另一個名稱的較不獨特版本。在某些實施方式中,實體解析系統110不依賴任何名稱數據存檔/全局數據源、文化信息或者解析數據。例如,參考實體1,如果根據分析忽略了最不獨特的名稱(JOHNSMITH、JOHNB.SMITH),則結果產生的交叉實體打分將更準確地代表名稱中的相似性或者不同,而且由實體解析系統110基于這些得分做出的決定將導致更高的質量分析。例如,最高的得分將準確地代表貢獻于最高保真度數據的實體中名稱之間的最高匹配水平;而最低的得分將準確地代表最大的沖突;而平均值將不會偏離更高,因為平均值將基于提供關于該實體的最非一般信息的名稱。實體解析系統110提供把評估或交叉實體打分限制到只有代表一個實體的獨特名稱的能力,而且這導致更準確的分析結果。包括較不獨特的名稱更有可能產生每個實體中名稱的相似性的偏離分析。實體解析系統110評估本地空間中的每個給定的名稱,以便確定將提供實體解析框架中最準確結果的獨特名稱集。即,實體解析系統110將用于單個實體的名稱與用于該實體的其它名稱進行比較。即,在這個時候,實體解析系統110不看其它實體。因而,這是單實體(其具有代表那單個實體的多個名稱)處理。圖2A和2B以流程圖例示了根據某些實施方式的由實體解析系統110執行的用以本文檔來自技高網
    ...
    用于識別名稱集中的非獨特名稱的方法與系統

    【技術保護點】
    一種用于識別名稱集中的非獨特名稱的方法,包括:利用計算機的處理器,獲得用于第一實體的名稱集;響應于比較所述名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似;在所述第一名稱和第二名稱中搜索起首字母;響應于所述搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述至少一個起首字母與所述第一名稱和第二名稱中的另一個名稱中的對應起首字母相匹配;及把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱;及應用交叉實體打分技術,該技術使用用于所述第一實體的名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱。

    【技術特征摘要】
    2011.08.11 US 13/208,1891.一種用于識別名稱集中的非獨特名稱的方法,包括:利用計算機的處理器,獲得用于第一實體的名稱集;響應于比較所述名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似;在所述第一名稱和第二名稱中搜索起首字母;響應于所述搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述第一名稱和第二名稱中的至少一個名稱中的所述至少一個起首字母與所述第一名稱和第二名稱中的另一個名稱中的對應起首字母相匹配;及把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱;及應用交叉實體打分技術確定用于所述第一實體的名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱的相似性,其中,確定所述至少一個起首字母與對應起首字母相匹配還包括:確定在所述第一名稱和第二名稱中是否存在對應匹配起首字母,或者在所述第一名稱和第二名稱中的一個名稱中是否存在在第一位置具有與所述第一名稱和第二名稱中的另一個名稱中的對應標志相匹配的字符的標志;及響應于確定所述第一名稱和第二名稱中存在對應匹配起首字母,或者在所述第一名稱和第二名稱中的一個名稱中存在在所述第一位置具有與所述第一名稱和第二名稱中的另一個名稱中的對應標志相匹配的字符的標志,把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱。2.如權利要求1所述的方法,還包括:響應于所述搜索指示在所述第一名稱和第二名稱中不存在起首字母,把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱。3.如權利要求1所述的方法,其中,確定所述第一名稱與第二名稱相似還包括:計算所述第一名稱和第二名稱之間的公共字符計數;計算所述第一名稱和第二名稱之間的換位計數;及如果所述公共字符計數等于所述第一名稱的長度而且所述換位計數小于可配置的數字,則確定所述第一名稱和第二名稱是相似的。4.如權利要求3所述的方法,還包括:響應于確定所述公共字符計數等于所述第一名稱的長度而且所述換位計數小于所述可配置的數字,比較一個或多個起首字母標志。5.如權利要求3所述的方法,其中,所述公共字符計數是基于通過從左向右移動來識別匹配且處于相同的相對位置的字符而執行所述第一名稱和第二名稱之間的字符比較。6.如權利要求3所述的方法,其中,對于所述第一名稱中沒有被匹配的任何字符,所述公共字符計數是基于在所述第一名稱和第二名稱中在可配置的搜索范圍內向前和向后搜索來識別匹配的字符。7.如權利要求3所述的方法,其中,計算換位計數還包括:計數換位的次數;及用二去除計數出的換位次數。8.一種用于識別名稱集中的非獨特名稱的計算機系統,包括:處理...

    【專利技術屬性】
    技術研發人員:T·B·艾倫B·E·瑪西C·J·文森特
    申請(專利權)人:國際商業機器公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲3p无码一区二区| 影院无码人妻精品一区二区| 亚洲AV无码乱码麻豆精品国产| 中文字幕av无码一二三区电影 | 直接看的成人无码视频网站| 69堂人成无码免费视频果冻传媒 | 无码国模国产在线观看免费| 亚洲中久无码永久在线观看同| 亚洲国产精品无码久久久秋霞1| 久久精品无码av| 精品久久久无码21p发布| 狠狠躁天天躁无码中文字幕图| 曰韩人妻无码一区二区三区综合部| 无码少妇一区二区浪潮av| 日韩精品无码中文字幕一区二区 | 超清无码无卡中文字幕| 亚洲中文无码av永久| 中文字幕无码毛片免费看| 人妻丰满熟AV无码区HD| 亚洲av无码专区在线| 国产AV无码专区亚洲AV毛网站| 精品久久久无码人妻字幂| 亚洲欧洲av综合色无码| 日日麻批免费40分钟无码| 亚洲VA中文字幕无码一二三区| 精品无码中出一区二区| 性色av无码免费一区二区三区 | 亚洲日韩精品无码专区网站| 亚洲日韩精品无码AV海量| 久久久久亚洲AV无码专区首JN | 成人午夜精品无码区久久| 日韩AV无码精品一二三区| 无码夜色一区二区三区| 亚洲av无码偷拍在线观看| 18禁网站免费无遮挡无码中文| 亚洲中文无码永久免| 免费无码看av的网站| 国产综合无码一区二区色蜜蜜| 97无码免费人妻超级碰碰夜夜| 成人毛片无码一区二区| 日韩无码系列综合区|