• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    保證語義正確性的動態分層集成數據訪問方法技術

    技術編號:8594059 閱讀:262 留言:0更新日期:2013-04-18 07:16
    本發明專利技術公開了一種保證語義正確性的動態分層集成數據訪問方法,目的是解決如何在大規模關系數據庫集成條件下,提供語義完全正確的數據訪問。技術方案為,先對描述邏輯子集DL-LiteA進行擴展得到然后基于描述邏輯進行本體TBox分層,并建立關系數據庫和本體之間的LAV映射和O-GAV映射。再根據TBox分層中的TQ,采用SuperRef算法對查詢請求進行擴展重寫,構建包含查詢結果動態ABox?AQ。最后,對ABox?AQ進行求精,返回查詢應答結果。采用本發明專利技術能夠向用戶提供語義完全正確的數據,滿足集成數據訪問中對于語義正確性的需求,且可降低計算復雜度,提高擴展查詢重寫的效率。

    【技術實現步驟摘要】

    本專利技術涉及數據工程領域的集成數據訪問方法。
    技術介紹
    數據是驅動現代企業業務發展的關鍵要素之一,實現數據資產業務價值的最大化是當代企業的首要目標之一。然而,雖然企業數據資產的逐年遞增,但是當前利用信息的能力和手段仍然相對落后,信息過載(Information Overloading)問題已經越來越成為困擾人們的難題。造成這一問題的根本原因在于人們在信息系統的建設過程中忽視頂層規劃和設計,導致現有的數據環境異常復雜,數據的綜合利用難度極大。因此,企業和科研機構在數據集成和訪問方面的投入開始逐年增加。有調查表明,到2012年為止,全球在數據集成和訪問技術方面的投入將會增長到30億美元以上。數據集成技術已經發展了三十多年,到目前為止可分為以數據倉庫為代表的物化集成方式(Materialized Approach)和以Wrapper/Mediator為代表的虛擬集成方式(Virtual Approach)。其中,前者建造和維護的成本高昂,時效性也存在明顯缺陷;而后者則較為靈活,更適合于對Web環境下自治、分布式的關系數據源進行集成。現有的數據集成方案通常在語法層面或者術語語義層面解決關系數據庫的模式異構問題,經常無法向上層應用提供優質、正確的數據,因而難以支持企業智能決策向更加高端的方向發展。目前基于本體進行數據集成和訪問的研究已經有了多年的發展,雖然已經取得了一定成果,但是尚未有能夠解決集成數據訪問的解決方案。現有的研究成果可歸為三類(I)僅以解決模式異構問題為目標的傳統的基于本體的數據集成方法,(2)以解決術語級語義的數據訪問為基本目標的數據訪問方法(3)以解決模式級語義的數據訪問為基本目標的數據訪問方法。1.傳統的基于本體的集成數據訪問方法本體技術于上世紀90年代中期出現并最先應用于數據集成領域。但是長期以來,本體的主要作用是充當領域的共享詞匯集,人們希望通過本體來屏蔽對數據源描述的差異。Michael Gruninger等人在1996年的第十二屆人工智能大會上提出,本體是足夠描述領域知識的一個公理集合。傳統基于本體的集成數據訪問方法對本體的定位較低,在集成過程中并不關注本體中的公理類型以及本體自身的表達能力和推理復雜度,而且在查詢處理過程中通常不涉及本體的ABox推理(這里的ABox是指依據本體公理定義而表示的個體信息)。比較有代表性的系統有1996年在期刊《Advanced Planning Technology》上的文章 Query Processing in the SIMS Information Mediator 中公布的 SIMS (Search InMultiple Source)系統、1996年在第一屆國際協作信息系統大會上的文章An approachfor query processing in global information systems based on interoperabilitybetween pre-existing ontologies 中公布的 OBSERVER (Ontology Based System Enhancedwith Relationships for Vocabulary hEterogeneity Resolution)項目、1997 年在 ACM大會上的文章 The context interchange mediator prototype 中公布的 COIN(COntextINterchange)項目等。依據引入本體的數量和方式,通常可以區分為單本體方式(如SMS)、多本體方式(如OBSERVER)和混合方式(如COIN)。傳統的基于本體的集成數據訪問方法主要解決異構數據源集成問題,其數據訪問并不能提供給用戶高質量的數據,即無法保證數據語義的正確性。因而,通常本體在這類系統所起到的作用有限,查詢處理的過程通常并不涉及本體的ABox推理。2.面向術語級語義的數據訪問方法面向術語級語義的數據訪問同樣利用了本體的共享詞匯集功能,其主要的研究分支包括基于本體的數據庫檢索(Ontology-Based Database Retrieval, 0BDR)、關聯數據(Linked Data)等等。其中,OBDR的基本思想是在大規模本體支持下,建立高效的語義索引,進而快速計算術語之間的語義相似度,提高查詢結果的查全率和查準率。例如,中國人民大學數據工程與知識工程實驗室開發的S1-SEEKER系統就是這樣一類系統。關聯數據技術的基本思想是將關系數據庫中的數據轉換成語義Web上的標準數據格式(如RDF等),然后基于語義Web平臺和SPARQL查詢語言來進行數據的查詢。例如著名的DBPedia、D2RQ等都屬于這一類解決方案。此外,國內浙江大學的DartGrid系統也是一種面向術語級語義的數據訪問系統,主要利用RDF本體的表達能力實現較低層次的數據集成和訪問,而且DartGrid本身是面向中醫藥領域的一個應用。面向術語級語義的數據訪問通常能夠從術語的角度給出和術語語義相關的查詢結果。然而,術語本身的語義通常會出現同名異義、同義異名等問題,而且僅僅依據術語自身語義所給定的語義約束過少,因而經常無法保證返回給用戶的數據是語義完全正確的數據,通常用查準率衡量正確獲得數據的概率。 查詢擴展重寫是在集成數據訪問中,通過定義好的相關重寫規則對用戶查詢進行重寫,將全局模式上的查詢重新闡釋為數據源模式上的查詢的過程,是語義查詢處理的重要階段。現有的查詢重寫算法有桶算法、逆規則算法、PerfectRef算法等。這幾種算法在重寫方式上有著不同的缺陷。比如PerfectRef算法,其執行效率取決于查詢數據的規模和本體TBox的規模,數據規模過大時,重寫時間將大幅增加。3.面向模式級語義的數據訪問方法近年來,面向模式級語義的數據訪問方法開始成為人們關注的熱點問題。由DiegoCalvanese等人提出的OBDA方法主要面向大規模數據訪問,將數據訪問系統分為服務層、語義層和數據層。服務層主要關注數據訪問系統向用戶提供的服務,如語義查詢和推理服務等;語義層包括本體、推理機和語義映射,封裝為所謂的OBDA-Enabled系統;數據層則包括關系數據庫和DBMS。Bozen-Bolzano自由大學和SAPIENZA Universitadi Roma大學基于OBDA方法開發了的OBDA-Plugin原型系統。OBDA-Plugin是一款Prot6g6插件,用戶可以定制EQL或者SPARQL查詢對關系數據庫訪問。OBDA采用DL-Lite本體和Quonto推理機實現OBDA-Enabled系統,具有較好的數據訪問性能。但是由于OBDA-Plugin采用全局局部視圖法(Global and Local As View, GLAV)映射進行關系數據庫和本體的連接,用戶仍然需要花費大量的時間來手工構造GLAV映射,并不便于使用。此外,由于OBDA方法將關系數據庫本身作為本體的“虛擬ABox”,這種局限使得該方法只能支持對單個數據庫的訪問。為了將OBDA方法應用于集成數據訪問,Diego等人又設計了 Mastix)-1。該集成數據訪問系統采用DL-LiteA作為全局模式,首先借本文檔來自技高網...

    【技術保護點】
    一種保證語義正確性的動態分層集成數據訪問方法,其特征在于包括以下步驟:第一步,對DL?Lite系列中的描述邏輯子集DL?LiteA進行如下擴展,得到DL?Lite是一種保證在大型數據集上仍然具有多項式級時間的推理的描述邏輯。1.1增加值約束;1.2增加非受限數量約束;1.3增加對稱關系、反對稱關系、自反關系和反自反關系;1.4去除角色包含公理;第二步,基于描述邏輯進行本體TBox分層,這里的本體是在OWL1DL本體的基礎上應用SWRL規則得到的,具有一階邏輯的表達能力;其中,本體TBox是描述概念之間相互關系的術語公理集,OWL1?DL是OWL1的子語言,SWRL是以語義的方式呈現規則的一種語言;本體TBox分層的步驟如下:2.1將滿足中肯定概念包含公理的子集從本體TBox中劃分出來,作為第一個分層,記作TQ;2.2將滿足中角色與概念特性的約束性公理、否定包含公理的子集從本體TBox中劃分出來,作為第二個分層,記作TCst;2.3將滿足OWL1?DL本體中其他無法由語法構造進行等價代換的剩余公理子集從本體TBox中劃分出來,作為第三個分層,記作Tr,滿足這一層約束公理的個體是OWL1?DL本體的合法實例,剩余公理子集包含的公理有概念的交和并、命名個體、角色傳遞、角色包含和等價運算;2.4將用SWRL描述的Horn邏輯規則從本體TBox中劃分出來,作為第四個分層;第三步,建立關系數據庫和本體之間的LAV映射和O?GAV映射,其中,LAV是局部視圖法,O?GAV是面向對象的全局視圖法,具體步驟如下:3.1基于概念連接圖和實體樹構造LAV映射,編碼生成表示和存儲LAV映射的XML文件,所述概念連接圖為二元組,CNode為概念連接圖中的節點集合,Edge為概念連接圖中的邊集合;所述實體樹的根節點為本體中的概念,描述 關系模式中隱含的一個實體集,實體樹的葉節點為一個序偶,其中col為關系模式中的列,dp為本體中的概念特性;3.2采用面向對象的全局視圖OGMG方法構造O?GAV映射,方法是:3.2.1根據分層TBox的TQ分層進行LAV映射分類,通過遍歷TQ中的概念集合和LAV映射集合,將含有同一概念的LAV映射分為一類;3.2.2依據LAV映射中的標識變量對映射中隱含的語義信息進行劃分,將同一LAV映射中使用同一變量標識的合取項分為一類;3.2.3構造O?GAV映射的首部和體部:根據與同一概念相關的合取項分別構造O?GAV映射的首部和體部,其中,首部是只包含基本概念的映射,其余映射為映射的體部;3.2.4合并O?GAV映射,將屬于同一概念體的信息加以整合,即對首部中包含同一概念信息的O?GAV映射進行合并;3.2.5對O?GAV映射進行編碼,得到包含O?GAV映射集合的映射文件;第四步,采用SuperRef算法對查詢進行擴展重寫,方法是:4.1將用戶查詢中的原子查詢,即由本體中的一元謂詞或二元謂詞構成的公式所包含的謂詞,作為搜索重寫可達圖的初始節點,重寫可達圖是以TQ中可用于擴展查詢重寫的謂詞為節點,以符合重寫規則的公理為邊的一個有向圖,且各條有向邊的方向從包含公理右端的謂詞指向包含公理左端的謂詞;4.2選擇初始節點為當前節點;4.3搜索當前節點是否存在未訪問子節點,若存在,進行4.4,若不存在,轉4.6步;4.4選擇當前節點的任一未訪問子節點,根據當前節點和所選子節點間存在的公理及該子節點的謂詞,對當前節點的查詢進行重寫,將重寫后的查詢語句放到查詢語句集合中,并將該子節點標記為已訪問;4.5將該子節點作為當前節點,轉4.3步;4.6判斷當前節點是否為初始節點,若是,轉4.8步,若不是,進行4.7;4.7令當前節點的父節點作為當前節點,轉4.3步;4.8查詢擴展重寫過程結束,得到對用戶查詢擴展重寫的查詢語句集合;第五步,構造動態ABox,方法是:5.1對擴展重寫查詢語句集合中的每一個合取查詢,按照概念原子中包含的變量對 查詢進行劃分,如果概念原子中的變量為共享變量,則將含有該共享變量的其他原子與該概念原子劃分為同一組,若無共享變量則單獨成組,劃分后的每一組都描述了一個概念體的信息;所述合取查詢是指將多個原子查詢合取得到一個總體的結果,該結果為各原子查詢結果的交集;5.2根據分組后的查詢在O?GAV映射文件中進行查找,得到與該查詢分組描述同一概念體的O?GAV映射;5.3根據O?GAV映射從關系數據庫中獲取數據,得到虛擬對象集合,并且根據O?GAV映射構造斷言,進而形成動態ABox?AQ,AQ中的元素是虛擬對象集合中的各虛擬對象的...

    【技術特征摘要】
    1. ー種保證語義正確性的動態分層集成數據訪問方法,其特征在于包括以下步驟 第ー步,對DL-Lite系列中的描述邏輯子集DL-LiteA進行如下擴展,得到DL-LiteニT ,DL-Lite是ー種保證在大型數據集上仍然具有多項式級時間的推理的描述邏輯。1.1増加值約束;1. 2増加非受限數量約束;1. 3增加對稱關系、反對稱關系、自反關系和反自反關系; [1.4去除角色包含公理; 第二步,基于DしLite:.,描述邏輯進行本體TBox分層,這里的本體是在OWLlDL本體的基礎上應用SWRL規則得到的,具有一階邏輯的表達能力;其中,本體TBox是描述概念之間相互關系的術語公理集,OffLl DL是OWLl的子語言,SffRL是以語義的方式呈現規則的ー種語言;本體TBox分層的步驟如下 [2.1將滿足DL-Lite^w中肯定概念包含公理的子集從本體TBox中劃分出來,作為第一個分層,記作Tq; [2. 2將滿足DL-Litel1中角色與概念特性的約束性公理、否定包含公理的子集從本體TBox中劃分出來,作為第二個分層,記作Tcst ; [2. 3將滿足OWLl DL本體中其他無法由Dししゎ;^語法構造進行 等價代換的剩余公理子集從本體TBox中劃分出來,作為第三個分層,記作I;,滿足這一層約束公理的個體是OWLlDL本體的合法實例,剩余公理子集包含的公理有概念的交和并、命名個體、角色傳遞、角色包含和等價運算; [2.4將用SWRL描述的Horn邏輯規則從本體TBox中劃分出來,作為第四個分層; 第三步,建立關系數據庫和本體之間的LAV映射和O-GAV映射,其中,LAV是局部視圖法,O-GAV是面向對象的全局視圖法,具體步驟如下 [3.1基于概念連接圖和實體樹構造LAV映射,編碼生成表示和存儲LAV映射的XML文件,所述概念連接圖為ニ元組〈CNode,Edge〉,CNode為概念連接圖中的節點集合,Edge為概念連接圖中的邊集合;所述實體樹的根節點為DしLiteごm本體中的概念,描述關系模式中隱含的一個實體集,實體樹的葉節點為一個序偶〈col,dp>,其中col為關系模式中的列,dp為本體中的概念特性; [3.2采用面向對象的全局視圖OGMG方法構造O-GAV映射,方法是 [3.2.1根據分層TBox的Tq分層進行LAV映射分類,通過遍歷Tq中的概念集合和LAV映射集合,將含有同一概念的LAV映射分為ー類; [3.2. 2依據LAV映射中的標識變量對映射中隱含的語義信息進行劃分,將同一 LAV映射中使用同一變量標識的合取項分為ー類; [3.2. 3構造O-GAV映射的首部和體部根據與同一概念相關的合取項分別構造O-GAV映射的首部和體部,其中,首部是只包含基本概念的映射,其余映射為映射的體部; [3.2. 4合并O-GAV映射,將屬于同一概念體的信息加以整合,即對首部中包含同一概念信息的O-GAV映射進行合并; [3.2. 5對O-GAV映射進行編碼,得到包含O-GAV映射集合的映射文件; 第四步,采用SuperRef 算法對查...

    【專利技術屬性】
    技術研發人員:姚莉唐富年封孝生劉芳張群郝智勇李金洋袁金平
    申請(專利權)人:中國人民解放軍國防科學技術大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻无码αv中文字幕久久| 亚洲精品色午夜无码专区日韩| 国产成人无码AV片在线观看| 人妻丰满熟妞av无码区| 无码精品国产一区二区三区免费| 久久亚洲AV成人出白浆无码国产| 亚洲精品无码成人片久久不卡| 亚洲精品无码你懂的网站| 国产精品多人p群无码| 一区二区三区无码被窝影院 | 亚洲a无码综合a国产av中文 | 91精品无码久久久久久五月天| 国产免费AV片无码永久免费| 91精品日韩人妻无码久久不卡| 天码av无码一区二区三区四区| 无码国产精品一区二区免费| 亚洲av无码电影网| 2014AV天堂无码一区| 超清无码无卡中文字幕| 午夜无码人妻av大片色欲| 精品亚洲AV无码一区二区| 无码无遮挡又大又爽又黄的视频| 国产成人无码区免费内射一片色欲| 亚洲av无码成人影院一区| 无码中文在线二区免费| 色综合久久中文字幕无码| 亚洲色无码专区在线观看| 精品久久久无码中文字幕天天| 亚洲高清无码专区视频| 国产精品第一区揄拍无码| 无码毛片AAA在线| 曰韩人妻无码一区二区三区综合部| 亚洲综合无码一区二区三区| 久久久久久人妻无码| 在人线av无码免费高潮喷水| 亚洲AV无码一区二区大桥未久 | 午夜成人无码福利免费视频| 在线观看无码的免费网站| 亚洲免费无码在线| 亚洲日韩激情无码一区| 无码午夜人妻一区二区三区不卡视频 |