本發明專利技術公開了一種基于語義標簽庫的多維度內容標注方法,包括:建立語義標簽庫;配置可擴展的資源種類;建立多級、可配置的內容標注維度;將資源按照內容特征劃分維度,建立多層次的內容維度;建立可配置、可修改的資源種類與內容標注維度的對應關系;進行基于語義標簽庫的資源內容標注;臨時標簽處理;基于語義標簽庫的資源檢索;用戶輸入檢索詞,系統自動在擴展標簽庫中進行匹配:如果匹配成功,系統根據對應的標簽標注碼來檢索對應圖片;如果匹配不成功,系統可將檢索詞與資源描述信息進行匹配,同時系統將該檢索詞存入臨時標簽庫。有效的提高了資源標注的精確度和效率,為資源檢索和數據分析奠定了良好的基礎。
【技術實現步驟摘要】
本專利技術涉及數據挖掘、數據分析和知識推理領域,設計并實現了一種對資源內容進行多維度、語義化、結構化的標注方法。
技術介紹
近年來,隨著經濟社會的高速發展,資源的數量迅速增加,而資源標注發展相對緩慢,資源的檢索問題日益突出。研究資源標注方法可以有效的解決資源的管理和檢索問題, 提高資源的使用率,滿足了資源在效率、使用和管理上的要求,這將對我國現階段智能標注的研究和發展、對資源的合理高效利用起到積極的推動作用。目前,資源標注方法有很多,主要可以分為基于資源屬性標注的方法、基于資源內容的特征標注方法、基于資源內容的標簽標注方法和基于資源特定領域的本體的語義標注方法。基于資源屬性標注的方法主要通過為資源的屬性特征標注相應的值的方式實現。 這種方式簡單易用,可對資源的重要屬性信息進行較好的描述,可作為資源檢索的基礎數據,但是屬性信息僅為資源所含信息的小部分,缺少對資源內容語義信息的描述;屬性項需在系統設計時確定,不易修改,擴展性較差;非規范化的簡單文字匹配造成的語義歧義性難以避免。基于資源內容的特征標注方法主要是提取資源的通用特征或領域相關特征來標注資源。這種方式一般用計算機自動化處理,并充分利用了資源本身所包含的豐富的內容信息,在特定領域應用良好,但是如何利用資源的特征來有效地表示資源內容成為亟需解決的問題。基于資源內容的標簽標注方法主要是用標簽來標注資源。這種方式突破了屬性標注的局限,揭示了資源的內容和主題特征,但是普通的社會化標簽存在定義不嚴格、易變、 無人管理的不足,使得標簽標注的主觀性強,多義詞和同義詞容易造成語義混淆,標注效率低,檢索與標注的用詞匹配難以吻合。基于資源特定領域的本體的語義標注方法主要是通過語義網中的本體技術來進行資源標注。這種方式將原來孤立的資源聯系起來,加大了不同資源之間的耦合度,資源本體為標準化標注提供了形式化基礎,而且標注后的資源與領域本體相對應,可以實現資源的智能檢索;但是領域本體的構建并非一朝一夕就能完成的,而資源涉及的范疇極為廣泛, 完全依賴本體進行資源的通用和完全的標注目前不具有實際操作性。
技術實現思路
本專利技術的目的是提出一種,以達到較高的資源標注效率,提高標注的精準度,為高效的資源檢索奠定基礎。本專利技術一種實現的具體步驟闡述如下(I)建立語義標簽庫;語義標簽庫是指由規范標簽庫、擴展標簽庫、臨時標簽庫、標簽關聯庫和標簽數據分析構成的標簽語義體系,其中擴展標簽庫包含規范標簽庫的內容。規范標簽庫中儲存標注資源的正式標簽,即規范標簽。只有規范標簽才被分配標注碼。規范標簽采用分組分層管理首先按詞語類別劃分分組,然后對每組規范標簽分層, 構建一個樹狀結構的標簽集合,并為每個規范標簽自動分配一個標注碼。同詞異碼表不該標簽為多義詞標簽,同碼異詞表示該組標簽為同義詞標簽組。此外,可使用標注碼將不同語種的標簽對應起來,實現多語種標簽擴展。擴展標簽庫中儲存擴展標簽及全部規范標簽。擴展標簽是指對應某個規范標簽的一系列擴展詞語,本身不具有標注碼。擴展標簽與資源不具有直接關聯關系,而是通過其對應的規范標簽具有間接關聯關系。擴展標簽一定會與某個或多個規范標簽具有關聯關系, 即通過規范標簽可獲取其對應的一組擴展標簽,反之亦然。擴展標簽庫主要用途包括兩個方面標注資源時,標引員輸入詞語時,系統從擴展標簽庫中匹配該詞對應的規范標簽,提示給標引員。檢索資源時,用戶輸入關鍵詞進行檢索時,系統從擴展標簽庫中匹配該詞對應的規范標簽及其標注碼,進而查找該標注碼對應的資源。臨時標簽是在資源標注過程中標引員臨時添加的不屬于規范標簽和擴展標簽的詞語,不具有標注碼。由于規范標簽庫是隨著資源標注工作逐漸完善和擴充的,所以標引員或其他非專業用戶在標注資源時,可以根據實際需要使用規范標簽庫和擴展標簽庫中沒有的關鍵詞(即臨時標簽)來標注資源。標簽數據分析主要是分析得出標簽關聯度、標簽熱度(綜合標簽被用于標注和檢索的頻度)等信息,將標簽的語義信息更加豐富化,為資源標注和檢索服務。可從如下三個方面進行數據分析(1)對某資源所標注標簽進行標簽共現分析;(2)對用戶檢索資源時所用標簽進行記錄和分析;(3)對相似資源(通過手動設置和自動識別的方法確定)所注標簽進行統計分析。標簽關聯庫儲存標簽數據分析的結果,用于標簽標注和檢索時的智能推薦。(2)配置可擴展的資源種類。其中,資源支持圖片、音頻、視頻等多媒體資源種類,并允許對其進行動態調整。(3)建立多級、可配置的內容標注維度。將資源按照內容特征劃分維度,建立多層次的內容維度。其中,內容標注維度是指多個可分級的標注維度,支持不同種類的資源對應不同的標注維度,用于對資源的標簽標注進行約束和規范。(4)建立可配置、可修改的資源種類與內容標注維度的對應關系。(5)進行基于語義標簽庫的資源內容標注。標注資源時,標引員可直接從規范標簽庫中選取規范標簽進行標注,也可以輸入標引詞,系統自動對標引詞在擴展標簽庫中進行匹配如果匹配成功,則在規范標簽庫中獲取規范標簽及其標注碼,建立資源與標注碼的對應關系;如果匹配不成功,則將標引詞存入臨時標簽庫并保留該詞與被標注資源的對應關系。標注過程中系統根據標簽關聯庫進行智能推薦。(6)臨時標簽處理。標簽管理員對臨時標簽進行逐一審核,采用兩種主要的處理方式一是按照規范標簽和擴展標簽的標準,將臨時標簽直接設定為規范標簽或擴展標簽;二是直接刪除該臨時標簽。此外,還可以選擇已有的規范標簽或擴展標簽代替該臨時標簽。(7)基于語義標簽庫的資源檢索。用戶輸入檢索詞,系統自動在擴展標簽庫中進行匹配;如果匹配成功,系統根據對應的標簽標注碼來檢索對應圖片;如果匹配不成功,系統可將檢索詞與資源描述信息進行匹配,同時系統將該檢索詞存入臨時標簽庫。本專利技術與現有技術相比,具有以下明顯的優勢和有益效果首先,本專利技術在充分研究資源內容的基礎上,提出了資源內容的多維度標注體系, 進一步細化的資源內容維度有助于更加精確的內容標注和檢索。其次,為了避免語義歧義對于資源標注的影響,本專利技術首次在資源標注方面提出了語義標簽庫的語義智能支持體系設計規范標簽支持多義詞、同義詞和多語言,擴展標簽有效的提高了標注的準確性和檢索的普適性,標簽關聯庫進一步加強了標簽語義信息的挖掘和利用。再次,本方法對于各類資源都是適用的,支持不同資源的個性化設定,標注維度可管、可配、可擴展,語義標簽庫中各個組成部分都具有良好的擴展性,其中標簽的數據分析可采用日益完善的數據分析技術,獲得更好的分析效果。實驗證明該方法有效的提高了資源標注的精確度和效率,為資源檢索和數據分析奠定了良好的基礎。附圖說明圖I為流程圖2為語義標簽庫結構示意圖3為結構示意圖4為資源內容標注流程圖5為資源檢索流程圖。具體實施方式以下結合說明書附圖對本專利技術的具體實施例加以說明。本專利技術以語義標簽庫為基礎,對資源內容進行多維度、語義化、結構化的標注,為資源的有效檢索和應用提供保障。語義標簽庫彌補了傳統社會化分眾標簽存在的主觀性強、歧義性、分散無序等不足,是一個可管理、可擴展、結構化、語義化的標簽體系。請參閱圖I所示,為流程圖。依序包括(1)建立圖片的語義標簽庫;(2)配置可擴展的圖片種類;(3)建立多級、可配置的圖片內容標注維度;(4)建立可配置、可修改的圖片種類與圖片內容標本文檔來自技高網...
【技術保護點】
一種基于語義標簽庫的多維度內容標注方法,其特征在于,包括以下步驟:1.1建立語義標簽庫;語義標簽庫由規范標簽庫、擴展標簽庫、臨時標簽庫、標簽關聯庫和標簽數據分析構成,其中擴展標簽庫包含規范標簽庫的內容;1.2配置可擴展的資源種類;1.3建立多級、可配置的內容標注維度;將資源按照內容特征劃分維度,建立多層次的內容維度;1.4建立可配置、可修改的資源種類與內容標注維度的對應關系;1.5進行基于語義標簽庫的資源內容標注;標注資源時,直接從規范標簽庫中選取規范標簽進行標注,也可以輸入標引詞,系統自動對標引詞在擴展標簽庫中進行匹配:如果匹配成功,則在規范標簽庫中獲取規范標簽及其標注碼,建立資源與標注碼的對應關系;如果匹配不成功,則將標引詞存入臨時標簽庫并保留該詞與被標注資源的對應關系;標注過程中系統根據標簽關聯庫進行智能推薦;1.6臨時標簽處理;標簽管理員將逐一審核臨時標簽,或者設定為新的規范標簽或擴展標簽,或者將其刪除;1.7基于語義標簽庫的資源檢索;用戶輸入檢索詞,系統自動在擴展標簽庫中進行匹配:如果匹配成功,系統根據對應的標簽標注碼來檢索對應圖片;如果匹配不成功,系統可將檢索詞與資源描述信息進行匹配,同時系統將該檢索詞存入臨時標簽庫。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:呂銳,張鵬洲,張弛,林波,王民,溫宇俊,龔雋鵬,宋卿,劉偉,陳國偉,
申請(專利權)人:新華通訊社,中國傳媒大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。