【技術實現步驟摘要】
用于識別名稱集中的非獨特名稱的方法與系統
本專利技術的實施方式涉及識別名稱集中的非獨特名稱。
技術介紹
實體解析(或者身份消歧)技術可以用于確定什么時候兩個或更多個實體(例如,人、建筑物、地方、組織、文檔、汽車、事物、其它對象,等等)盡管有不同的描述但是代表相同的物理實體。有時候這些技術被稱為重復數據刪除、匹配/合并、身份解析、語義和解或者有其它的名稱。例如,包含CustID#1[BobJones,位于123MainStreet,生日(DOB)為6/21/45]的第一個記錄有可能代表與包含CustID#2[BobKJones,位于123S.MainStreet,DOB為6/21/1945]的第二個記錄相同的實體。實體解析可以在單個數據源中用于找出重復,跨數據源確定完全不同的事務如何關聯到一個實體,或者同時用在多個數據源中和跨多個數據源使用。實體解析的結果可以用包含身份數據陣列的數據集提供。然而,存在許多其主要識別屬性是名稱的數據集。對于任何實體,都可以存在代表該實體的多個名稱,有些名稱不如其它名稱獨特。作為一個實體獨特表示的名稱是增加對其身份的理解或者提供對其身份的更多前后關系的名稱。名稱可以包括以下中的一個或多個:姓或起首字母,中間名或起首字母,名或起首字母,等等。以下是一個例子,其中實體1有三個名稱(即,實體1的表示),而實體2有兩個名稱(即,實體2的表示)。實體1:實體2:JOHNB.SMITHJOHNDAVIDSMITHJOHNBRIANSMITHPETETHOMPSONJOHNSMITH基于各種匹配特征(例如,每個名稱的相同的社會保險號),可以知 ...
【技術保護點】
一種用于識別名稱集中的非獨特名稱的方法,包括:利用計算機的處理器,獲得用于第一實體的名稱集;響應于比較所述名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似;在所述第一名稱和第二名稱中搜索起首字母;響應于所述搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述至少一個起首字母與所述第一名稱和第二名稱中的另一個名稱中的對應起首字母相匹配;及把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱;及應用交叉實體打分技術,該技術使用用于所述第一實體的名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱。
【技術特征摘要】
2011.08.11 US 13/208,1891.一種用于識別名稱集中的非獨特名稱的方法,包括:利用計算機的處理器,獲得用于第一實體的名稱集;響應于比較所述名稱集中的第一名稱和第二名稱,確定所述第一名稱與第二名稱相似;在所述第一名稱和第二名稱中搜索起首字母;響應于所述搜索指示在所述第一名稱和第二名稱中的至少一個中存在至少一個起首字母,確定所述第一名稱和第二名稱中的至少一個名稱中的所述至少一個起首字母與所述第一名稱和第二名稱中的另一個名稱中的對應起首字母相匹配;及把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱;及應用交叉實體打分技術確定用于所述第一實體的名稱集中的獨特名稱和用于第二實體的另一名稱集中的名稱的相似性,其中,確定所述至少一個起首字母與對應起首字母相匹配還包括:確定在所述第一名稱和第二名稱中是否存在對應匹配起首字母,或者在所述第一名稱和第二名稱中的一個名稱中是否存在在第一位置具有與所述第一名稱和第二名稱中的另一個名稱中的對應標志相匹配的字符的標志;及響應于確定所述第一名稱和第二名稱中存在對應匹配起首字母,或者在所述第一名稱和第二名稱中的一個名稱中存在在所述第一位置具有與所述第一名稱和第二名稱中的另一個名稱中的對應標志相匹配的字符的標志,把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱。2.如權利要求1所述的方法,還包括:響應于所述搜索指示在所述第一名稱和第二名稱中不存在起首字母,把所述第一名稱和第二名稱中的一個名稱標記為非獨特名稱。3.如權利要求1所述的方法,其中,確定所述第一名稱與第二名稱相似還包括:計算所述第一名稱和第二名稱之間的公共字符計數;計算所述第一名稱和第二名稱之間的換位計數;及如果所述公共字符計數等于所述第一名稱的長度而且所述換位計數小于可配置的數字,則確定所述第一名稱和第二名稱是相似的。4.如權利要求3所述的方法,還包括:響應于確定所述公共字符計數等于所述第一名稱的長度而且所述換位計數小于所述可配置的數字,比較一個或多個起首字母標志。5.如權利要求3所述的方法,其中,所述公共字符計數是基于通過從左向右移動來識別匹配且處于相同的相對位置的字符而執行所述第一名稱和第二名稱之間的字符比較。6.如權利要求3所述的方法,其中,對于所述第一名稱中沒有被匹配的任何字符,所述公共字符計數是基于在所述第一名稱和第二名稱中在可配置的搜索范圍內向前和向后搜索來識別匹配的字符。7.如權利要求3所述的方法,其中,計算換位計數還包括:計數換位的次數;及用二去除計數出的換位次數。8.一種用于識別名稱集中的非獨特名稱的計算機系統,包括:處理...
【專利技術屬性】
技術研發人員:T·B·艾倫,B·E·瑪西,C·J·文森特,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。