一種基于敘詞表的本體自動生成系統及其方法,自動完成由敘詞表到本體文件的轉換。該系統由8個模塊組成:解析模塊、術語及關系映射模塊、術語及關系重構模塊、規范性自檢模塊、本體文件更新模塊、本體解析模塊、本體推演模塊和術語圖譜構建構成。該系統提供一種本體庫自動生成系統及其方法,用戶不需要逐條術語進行手動編輯,減少了用戶輸入錯誤,提高效率;同時,首次采用具有雙向結構的鄰接表作為術語顯示的映射表,在術語展示層實現了傳統的正向展示圖譜、查看術語間的關系,又可以反向展示圖譜、查看術語間的關系,方便用戶查看術語的關系;避免了單一的展示方式,同時支持搜索功能,便于查找術語。
【技術實現步驟摘要】
本專利技術是,屬于信息檢索領域。
技術介紹
當前以計算機技術和網絡技術為核心的現代信息技術迅速發展,尤其是個人電腦和因特網的廣泛應用與普及和知識可視化的探索和發展,使得各學科中知識體系在計算機中的實現越來越引起人們的關注,學科知識體系在計算機或者網絡中的查找和共享也變得尤為重要。利用信息技術知識構建一個完備的靈活的可兼容可擴充的知識地圖是當前一個較為有效的科學的方法。本體構建有多種途徑,如直接構建領域本體、以現有分類法為基礎構建領域本體、以現有敘詞表為基礎構建領域本體等。敘詞表是特定學科領域內的表達事物概念的詞匯集合;是通過各種方式對敘詞之間的各種詞義聯系進行顯示的詞匯系統;是領域本體的目標是捕獲相關領域的知識,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯之間相互關系的明確定義。本體是一種能在語義層次上描述信息的概念模型,它通過對概念及其關系的描述,使得領域敘詞在共享范圍內具有被共同認可的、明確的、形式化的定義。然而,本體構建的方式仍然以手工構建為主,這種構建方法自動化程度低,工程繁瑣而浩大,且難以進行維護和修改。本專利技術中將敘詞表本體化與關系學習技術結合起來,構建了本體文件自動生成系統,一方面用敘詞表彌補概念及分類關系獲取效果不理想的問題;另一方面提高了用戶搜索、查看術語的效率和準確性。
技術實現思路
本專利技術的技術解決問題克服現有技術的不足,提供,用戶不需要逐條術語進行手動編輯,減少了用戶輸入錯誤,極大的提高系統效率;本專利技術提供了一種基于用戶查詢和正反雙向展示的圖譜,方便用戶查看術語及其關系。本專利技術的技術解決方案基于敘詞表的本體自動生成系統,如圖I所示包括服務器和客戶端,其中服務器端包括敘詞表解析模塊、術語及關系映射模塊、術語及關系重構模塊、規范性自檢模塊、本體文件更新模塊、本體解析模塊、本體推演模塊和術語圖譜構建模塊;客戶端進行敘詞表文件導入、本體編輯和展示,具體如下敘詞表解析模塊首先對敘詞表進行預處理,將序詞表解析成方便程序進行處理的txt格式;然后逐條地對敘詞中敘詞進行處理,分離出敘詞及敘詞關系,所述術語關系是用代關系、屬分關系及相關關系;把敘詞表中的敘詞及敘詞關系通過索引的形式映射到敘詞映射文件中,所示敘詞映射文件是用于存儲敘詞及敘詞關系的文件,敘詞映射文件供術語及術語關系映射模塊解析。術語及關系映射模塊對敘詞映射文件進行解析,獲取敘詞索引信息,將敘詞按敘詞所屬范疇分成若干類,并區分出上位詞、下位詞和族首詞,存儲到術語表,即:thesaurusTable ;根據解析結果,對敘詞術語關系進行語法分析,檢查每個敘詞的關系是否符合語法規則,分析完一個敘詞,并進行相應的存儲,當所有的敘詞分析完后,構成形成敘詞關系分析樹,各相關敘詞存放在分析樹的節點中,并按照等同關系、屬分關系以及相關關系存儲到關系表,即relati0nTable ;通過對敘詞映射文件進行預處理,將敘詞轉變成本體中的概念,使敘詞映射文件真正成為領域本體建設的基礎資源。術語及關系重構模塊對thesaurusTable進行循環遍歷,取出每個術語,把每個術語轉換成本體類的主屬性,然后遍歷relationTable表,獲取當前術語關系分析樹,確定與其相關術語間的等級關系,然后對術語及術語關系進行處理,轉換為初始本體中相應的類及層次關系,最終生成初始本體文件,供規范性自檢模塊調用。規范性自檢模塊讀取初始本體文件,對初始本體文件進行概念、類、及屬性進行檢查,如果不存在問題,則自動生成本體文件;如果存在問題,則保存到日志文件中,繼續解析下一條術語;當解析完成后,系統自動把初始本體文件及日志推送到客戶端本體編輯模塊。本體文件更新模塊響應用戶對本體文件或初始本體文件編輯操作,所述操作有添加、刪除、修改,并根據用戶的操作,重新構建新的本體文件。本體文件更新模塊會自動調用規范性自檢模塊,最終生成本體文件,供本體解析模塊調用。本體解析模塊負責解析本體文件,把術語及術語關聯關系進行分解,一個術語節點可以分解為多個子節點,從而構成樹狀結構;一組被連接的術語節點代表一個術語集合或一個術語流程,從而構成圖狀結構;在本體文件解析過程中,將術語及術語關系封裝成具有雙向鏈表功能的鄰接表即adjTable,供本體推演模塊調用,從而實現正向和方向兩個方向的遍歷和查找功能。本體推演模塊負責讀取adjTable中數據,根據用戶的需求,所述用戶需求為術語樹、術語地圖、正向展示、反向展示;系統從adjTable中讀取相關數據,封裝到成tempData數據包,供術語圖譜模塊調用。術語圖譜構建模塊對tempData數據包進行解析,根據用戶選擇,系統自動生成術語樹或術語地圖,并利用信息可視化技術和工具進行展示;根據用戶的需要可以正向展示圖譜或者反向展示圖譜,并為用戶提供搜索、瀏覽某個具體術語的功能。基于敘詞表的本體自動生成方法,實現步驟如下(I)對敘詞表文件進行解析,分離出敘詞及敘詞關系;首先對敘詞表進行預處理,將序詞表轉換成方便程序進行處理的txt格式,即thesaurus. txt ;然后遍歷thesaurus,txt文件,逐條地對敘詞進行處理,分離出敘詞及敘詞關系;把敘詞表中的敘詞及敘詞關系通過索引的形式映射到存儲到已經定義好的哈希表中,即HashMap,當解析結束后,把全部數據存儲到敘詞映射文件,即AhesaurusMapFile,供術語及關系映射模塊調用。(2)對thesaurusMapFile進行解析,根據索引信息,將敘詞按其概念所屬范疇分成若干類,第一次循環遍歷thesaurusMapFile,讀取每個敘詞,區分出上位詞、下位詞和族首詞,并存儲到術語表中,即thesaurusTable ;再次遍歷敘詞映射文件,解析出敘詞的用、代、屬、分等關系根據等同關系、屬分關系以及相關關系;當所有的敘詞分析完后,構成形成敘詞關系分析樹,各相關敘詞存放在分析樹的節點中,并存儲到關系表中,即relationTable,供術語及關系重構模塊調用。(3)對thesaurusTable進行循環遍歷,取出每個術語,把每個術語轉換成本體類的主屬性,再次遍歷relationTable表,獲取當前術語關系分析樹,獲取術語的用代關系,屬分關系和相關關系,并轉換為初始本體中相應的類及層次關系,最終生成初始本體文件,供規范性自檢模塊調用。(4)客戶端可以對術語進行編輯,方便查看、修改已經生成的術語初始本體文件或本體文件;對于有問題的初始本體文件,系統自動推送到客戶端,供有戶進行修改;沒有問題的初始本體文件,用戶可以手動調用進行編輯;用戶對本體做修改時,修改信息儲存在緩存臨時表中,即tempTab,當用戶退出程序或點擊保存按鈕時修改信息自動傳送到服務器中,并寫入本體文件;初始本體文件沒有問題后,經過規范性自檢流程,自動生成本體文件。(5)客戶端發起查看術語及術語關系的請求,所示請求有知識樹、知識地圖、正向展示和反向展示;根據客戶端的請求,服務器端對本體文件的解析,把術語及術語關聯關系進行分解,一個術語節點可以分解為多個子節點,從而構成樹狀結構。一組術語節點代表一個術語集合或一個術語流程,從而構成圖狀結構;在術語解析過程中,將術語及術語關系解析成具有雙向鏈表功能的鄰接表,即adjTable本文檔來自技高網...
【技術保護點】
一種基于敘詞表的本體自動生成系統,其特征在于包括服務器和客戶端,其中服務器端包括:敘詞表解析模塊、術語及關系映射模塊、術語及關系重構模塊、規范性自檢模塊、本體文件更新模塊、本體解析模塊、本體推演模塊和術語圖譜構建模塊;客戶端進行敘詞表文件導入、本體編輯和展示,具體如下:敘詞表解析模塊:首先對敘詞表進行預處理,將序詞表解析成方便程序進行處理的txt格式;然后逐條地對敘詞中敘詞進行處理,分離出敘詞及敘詞關系,所述術語關系是用代關系、屬分關系及相關關系;把敘詞表中的敘詞及敘詞關系通過索引的形式映射到敘詞映射文件中,所示敘詞映射文件是用于存儲敘詞及敘詞關系的文件,敘詞映射文件供術語及術語關系映射模塊解析;術語及關系映射模塊:對敘詞映射文件進行解析,獲取敘詞索引信息,將敘詞按敘詞所屬范疇分成若干類,并區分出上位詞、下位詞和族首詞,存儲到術語表,即:thesaurusTable;根據解析結果,對敘詞術語關系進行語法分析,檢查每個敘詞的關系是否符合語法規則,分析完一個敘詞,并進行相應的存儲,當所有的敘詞分析完后,構成形成敘詞關系分析樹,各相關敘詞存放在分析樹的節點中,并按照等同關系、屬分關系以及相關關系存儲到關系表,即:relationTable;通過對敘詞映射文件進行預處理,將敘詞轉變成本體中的概念,使敘詞映射文件真正成為領域本體建設的基礎資源;術語及關系重構模塊:對thesaurusTable進行循環遍歷,取出每個術語,把每個術語轉換成本體類的主屬性,然后遍歷relationTable表,獲取當前術語關系分析樹,確定與其相關術語間的等級關系,然后對術語及術語關系進行處理,轉換為初始本體中相應的類及層次關系,最終生成初始本體文件,供規范性自檢模塊調用;規范性自檢模塊:讀取初始本體文件,對初始本體文件進行概念、類、及屬性進行檢查,如果不存在問題,則自動生成本體文件;如果存在問題,則保存到日志文件中,繼續解析下一條術語;當解析完成后,系統自動把初始本體 文件及日志推送到客戶端本體編輯模塊;本體文件更新模塊:響應用戶對本體文件或初始本體文件編輯操作,所述操作有添加、刪除、修改,并根據用戶的操作,重新構建新的本體文件。本體文件更新模塊會自動調用規范性自檢模塊,最終生成本體文件,供本體解析模塊調用;本體解析模塊:負責解析本體文件,把術語及術語關聯關系進行分解,一個術語節點可以分解為多個子節點,從而構成樹狀結構;一組被連接的術語節點代表一個術語集合或一個術語流程,從而構成圖狀結構;在本體文件解析過程中,將術語及術語關系封裝成具有雙向鏈表功能的鄰接表即:adjTable,供本體推演模塊調用,從而實現正向和方向兩個方向的遍歷和查找功能;本體推演模塊:負責讀取adjTable中數據,根據用戶的需求,所述用戶需求為:術語樹、術語地圖、正向展示、反向展示;系統從adjTable中讀取相關數據,封裝到成tempData數據包,供術語圖譜模塊調用;術語圖譜構建模塊:對tempData數據包進行解析,根據用戶選擇,系統自動生成術語樹或術語地圖,并利用信息可視化技術和工具進行展示;根據用戶的需要可以正向展示圖譜或者反向展示圖譜,并為用戶提供搜索、瀏覽某個具體術語的功能。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:王立偉,張巍,楊秋皓,許怡婷,張冶,王志勇,章樂平,楊玉堃,畢經元,褚厚斌,賈倩,杜俊鵬,
申請(專利權)人:中國運載火箭技術研究院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。