本發明專利技術公開了一種基于XML文檔的元數據模式匹配方法,通過計算兩個元數據的語義相似度、屬性相似度、實例相似度、結構相似度和關系相似度,根據具體的XML文檔來設置權重,最后計算綜合相似度,因此在元數據之間的模式匹配時,可使計算結果更精確。
【技術實現步驟摘要】
—種基于XML文檔的元數據模式匹配方法
本專利技術關于元數據模式匹配方面,特別涉及XML文檔的元數據的語義、屬性、實例、結構和關系相似度計算方法,屬于數據庫
技術介紹
擴展標記語言(extensible Markup Language,XML)是一套定義語義標記的規則, 用戶通過它可以創建文檔類型定義(Document Type Def inition,簡稱DTD)的規則集,XML 作為統一的轉換語法和交換格式,為開發者和用戶提供一種交換元數據信息的標準途徑, 從而能夠方便、簡潔地在基于OMG UML的建模工具和基于OMG MOF的元數據倉儲(Metadata Repository)之間交換元數據。而元數據則是關于數據的數據,用于描述要素、數據集或數據集系列的內容、覆蓋范圍、質量、管理方式、數據的所有者、數據的提供方式等有關的信息。近年來越來越多的科研院所都開始致力于元數據相關問題的研究,特別是隨著語義Web 的發展,元數據理論及其相關技術已逐漸成為計算機領域中重要的研究熱點,為了解決網絡信息爆炸時代出現的諸多問題,元數據作為一種重要的應對方法和措施,已廣泛應用于信息檢索、信息集成、信息共享及軟件工程等各個應用領域中。語義內容異構是元數據模式集成中必須要面對而且需要重點解決的問題。要在網絡環境下消除由這些獨立的元數據方案引起的“信息孤島”,就必須有某種程度的元數據間互操作,用于解決不同元數據所引起的概念和結構的異構問題,這就需要在元數據之上再建立一些機制,來靈活地實現元數據間的互操作。作為解決信息異構、信息集成的主要方法,模式匹配技術設計的是否合理有效就成了影響元數據模式集成效果的關鍵因素。而現有的工作面臨的是一個以豐富元數據模式語義信息為目的、以多源異構元數據模式合并與構建為任務的新問題。目前元數據模式匹配的算法主要有基于正則表達式規則的邏輯結構匹配算法和基于隱馬爾可夫模型的XML文檔的元數據匹配算法,但基于正則表達式規則的邏輯結構匹配算法主要考慮XML文檔的元數據之間的邏輯結構相似性,忽略了元數據語義相似度、實例相似度以及關系相似度等因素,而基于隱馬爾科夫模型的元數據匹配算法主要提取XML文檔頭部的部分元數據信息,忽略了其他元數據的相似關系。本專利在現有的元數據模式匹配算法的基礎上,提出了新型的一種元數據模式匹配方法,該方法既考慮了元數據的結構特征,又考慮了元數據之間的語義、屬性、實例和關系相似度,同時考慮元數據匹配的不對稱性問題,可使計算結果更精確。
技術實現思路
本專利技術所要解決的技術問題是實現更精確的元數據之間的匹配。為解決上述技術問題,本專利技術提供一種基于XML文檔的元數據模式匹配方法,其特征在于,包括以下步驟I)計算兩個元數據的語義相似度元數據a和元數據b之間的相似度通過字符串的同義詞匹配來完成,計算模型如下所示權利要求1.一種基于XML文檔的元數據模式匹配方法,其特征在于,包括以下步驟 1)計算兩個元數據的語義相似度元數據a和元數據b之間的相似度通過字符串的同義詞匹配來完成,計算模型如下所示全文摘要本專利技術公開了一種基于XML文檔的元數據模式匹配方法,通過計算兩個元數據的語義相似度、屬性相似度、實例相似度、結構相似度和關系相似度,根據具體的XML文檔來設置權重,最后計算綜合相似度,因此在元數據之間的模式匹配時,可使計算結果更精確。文檔編號G06F17/30GK102982168SQ201210535449公開日2013年3月20日 申請日期2012年12月12日 優先權日2012年12月12日專利技術者朱曉燕, 何金陵, 潘留興, 趙鑫 申請人:江蘇省電力公司信息通信分公司, 江蘇電力信息技術有限公司, 江蘇省電力公司, 國家電網公司本文檔來自技高網...
【技術保護點】
一種基于XML文檔的元數據模式匹配方法,其特征在于,包括以下步驟:1)計算兩個元數據的語義相似度:元數據a和元數據b之間的相似度通過字符串的同義詞匹配來完成,計算模型如下所示:lex_sim(m1,m2)=Σi=1sΣj=1tsim(m1i,m2j)m*n式(1)其中其中m1i是元數據m1的第i個關鍵詞,m2j是元數據m2的第j個關鍵詞,s表示元數據m1的關鍵詞個數,t表示元數據m2的關鍵詞個數,sim(m1i,m2j)表示關鍵詞m1i和m2j的相似度,如果m1i和m2j相同或為同義詞,則sim(m1i,m2j)=1,否則為0;lex_sim(m1,m2)的取值范圍為[0,1],當元數據m1中的所有關鍵詞與元數據m2所有關鍵詞相同或為同義詞時,lex_sim(m1,m2)=1,而全部不相同或都不為同義詞時lex_sim(m1,m2)=0;2)計算兩個元數據的屬性相似度:使用公式(2)計算出兩個元數據的屬性相似度,計算模型如下所示:attr_sim(m1,m2)=|m2∩m2||m1,m2|+D(m1,m2)|m1∩⫬m2|+(1-D(m1,m2))|⫬m1∩m2|式(2)其中|m1∩m2|表示元數據m1和m2的屬性集合的交集的個數,表示屬于元數據m1但不屬于m2的屬性集合的個數,而表示屬于元數據m2但不屬于m1的屬性集合的個數,而D(m1,m2)的計算公式如公式(3)所示,D(m1,m2)=dep(m1)dep(m1)+dep(m2)dep(m1)≤dep(m2)1-dep(m1)dep(m1)+dep(m2)dep(m1)≥dep(m2)---(3)其中dep(m1)表示元數據m1在XML文檔中所處的層(即深度),同樣dep(m2)表示元數據m2在XML文檔中所處的深度;3)計算兩個元數據的實例相似度:兩個元數據的實例相似度的公式用公式 (4)所示,inst_sim(m1,m2)=|instSet(m1)∩instSet(m2)||instSet(m1)∪instSet(m2)|---(4)|instSet(m1)∩instSet(m2)|表示元數據m1和元數據m2實例的交集個數,|instSet(m1)∪instSet(m2)|表示元數據m1和元數據m2實例的并集個數;4)計算兩個元數據的結構相似度:計算公式如式(5)所示,stru_sim(m1,m2)=λ*Psim(m1,m2)+(1?λ)Ssim(m1,m2)??????????(5)其中0≤λ≤1,Psim(m1,m2)表示元數據m1的父元數據與m2的父元數據之間的相似度,而Ssim(m1,m2)表示元數據m1的子元數據與m2的子元數據之間的相似度,Psim(m1,m2)和Ssim(m1,m2)計算公式分別如式(6)、(7)所示,Psim(m1,m2)=attr_sim(p1,p2)??????????????(6)Ssim(m1,m2)=Σi=1SΣj=1Tattr_sim(m1Si,m2Sj)---(7)其中p1和p2分別表示元數據m1和m2的父元數據,與分別表示元數據m1和元數據m2的第Si個與第Sj個子元數據,S、T分別表示元數據m1和m2的子元數據的個數,attr_sim的計算如式(2)所示;5)計算兩個元數據的關系相似度:關系由于包含多個數據,而每個數據所處的地位不同,假設一個元數據的關系包括以下幾種類型:名稱、類型、時間和空間,則根據數據的權重計算公式可表示為:rel_sim(m1,m2)=a*name_sim(m1,m2)+b*type_sim(m1,m2)?????????????(8)+c*time_sim(m1,m2)+d*space_sim(m1,m2)其中參數a+b+c+d=1,name_sim(m1,m2)、type_sim(m1,m2)、time_sim(m1,m2)、space_sim(m1,m2)分別表示元數據m1和m2的名稱、類型、時間和空間的關系相似度,根據關系數據的不同,采用不同的方式計算各關系數據的相似度,如名稱和類型為字符串,使用字符串相似度計算關系數據的類型的相似度;如果元數 據的關系是時間類型的,根據時間關聯來計算相似度;如果元數據的關系是空間類型,采用皮爾遜相似度來計算兩個關系數據的相似度;6)基于步驟1)到步驟5)的相似度計算,得出兩個元數據的綜合相似度計算公式,如下所示:...
【技術特征摘要】
【專利技術屬性】
技術研發人員:朱曉燕,何金陵,潘留興,趙鑫,
申請(專利權)人:江蘇省電力公司信息通信分公司,江蘇電力信息技術有限公司,江蘇省電力公司,國家電網公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。