本發明專利技術公開了一種檢索請求語義擴展方法,包括如下步驟:接收用戶的檢索請求;對檢索請求進行分詞處理,生成關鍵詞;基于知識樹對關鍵詞進行語義擴展,生成擴展后的關鍵詞組合;對關鍵詞組合,結合檢索組合庫進行最優匹配組合查詢,得到有效檢索組合;將有效檢索組合與用戶已經輸入的檢索請求合并,生成有效檢索組合集。本發明專利技術能夠實現多維度語義擴展,并且通過最優匹配組合查詢將大量的多重組合集快速聚焦到有效檢索組合集中,實現了充分的語義擴展與真實有意義的檢索組合的有機結合,有效提高了搜索結果的精度。
【技術實現步驟摘要】
本專利技術涉及一種對用戶的檢索請求進行語義擴展的方法,屬于網絡搜索
技術介紹
搜索引擎是根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行組織和處理后,并將處理后的信息顯示給用戶,從而為用戶提供檢索服務的信息服務系統。現有的搜索引擎根據用戶提供的關鍵詞進入自身的數據庫系統進行檢索,并將搜索結果反饋給用戶。在這個過程中,往往用幾個簡單的關鍵詞很難表達出用戶真正的搜索意圖,或者用戶不知道應該輸入什么樣的關鍵詞,才能準確表達自己需要搜索的信息。而搜索引擎需要根據用戶輸入的信息進行分析判斷,并根據判斷結果來提供搜索結果。因此,現有搜索引擎的搜索結果與用戶的需求之間經常是答非所問,令人失望。為了讓用戶能夠檢索到其所期望的搜索結果,對用戶輸入的檢索詞進行擴展成為一個可行的方法。這方面已有一些較為成熟的技術方案。例如美國谷歌公司在申請號為200880024690. 7的中國專利申請中,提出了一種用于提供搜索查詢信息的系統,利用歷史搜索查詢信息的統計,依據當前輸入的查詢與之匹配,得到擴展的搜索查詢信息。具體地說,該系統接收對搜索查詢信息的請求,從搜索查詢日志識別搜索查詢集合,搜索查詢日志包括在預定時間長度內提交給搜索服務的搜索查詢,并且提供所述搜索查詢集合。所述搜索查詢集合中的每一個與至少預定數量的獨特標識符相關聯。所述搜索查詢集合中的每一個通過精確匹配、擴展匹配和寬泛匹配而與對搜索查詢信息的請求相匹配。在申請號為200810151074.X的中國專利申請中,也公開了一種關鍵詞自動擴展查詢方法,通過關鍵詞識別碼做一級關鍵詞擴展。該方法包括以下步驟1)建立一數據庫該數據庫包含關鍵詞、詞匯和識別碼;2)將關鍵詞與至少一詞匯對應;3)將相關的關鍵詞與一識別碼對應;4)通過用戶輸入的關鍵詞,確定數據庫中與該關鍵詞對應的識別碼;5)通過該識別碼提取該識別碼對應相關的關鍵詞;6)通過相關的關鍵詞,查詢出與每一相關的關鍵詞對應的詞匯。另外,在申請號為201110089889.1的中國專利申請中,提出了一種基于關鍵詞的WEB服務器擴展檢索方法,將關鍵詞進行語義擴展,利用擴展后的增量關鍵詞提供檢索。具體地說,該方法由WEB服務器提供的檢索系統自動擴展出與用戶所輸入關鍵詞相對應的擴展詞進行輔助檢索,即WEB服務器的檢索系統在進行檢索之前,先根據擴展條件自動把用戶查詢的關鍵詞進行語義擴展,從而形成新的查詢條件,并檢索相匹配的信息文本返回給用戶。該技術方案可以增強WEB服務器的語義擴展檢索性能,并且擴展條件可靈活選擇,能夠更好地滿足人們對于語義信息檢索的靈活性需求。
技術實現思路
本專利技術所要解決的技術問題在于提供。該方法可以用在搜索引擎中,對用戶的檢索請求進行語義擴展,從而提高搜索結果的精度。為實現上述的專利技術目的,本專利技術采用下述的技術方案,包括如下步驟接收用戶的檢索請求;對所述檢索請求進行分詞處理,生成關鍵詞;基于知識樹對所述關鍵詞進行語義擴展,生成擴展后的關鍵詞組合;對所述關鍵詞組合,結合檢索組合庫進行最優匹配組合查詢,得到有效檢索組合;將所述有效檢索組合與用戶已經輸入的檢索請求合并,生成有效檢索組合集。其中較優地,在對所述檢索請求進行分詞處理時,過濾停用詞。其中較優地,所述知識樹由若干個語義節點構成,每個語義節點下包括不同維度的語義擴展。其中較優地,所述語義擴展包括同義詞集、漢語拼音集、拆字變形集、錯別字詞集和其他變形詞集。其中較優地,在進行最優匹配組合查詢時,以所述關鍵詞組合進行輸入,查詢所述檢索組合庫,得到所述關鍵詞組合的頻度和匹配相似度,然后利用所述頻度和所述匹配相似度對所述關鍵詞組合計算得分,并進行排序,在排序后優選所述關鍵詞組合的個數,得到有效檢索組合。其中較優地,所述檢索組合庫用于記錄檢索關鍵詞組合請求的時刻、頻次。其中較優地,在生成所述有效檢索組合集后,將用戶繼續輸入的關鍵詞組合存儲到所述檢索組合庫中;如果所述關鍵詞組合已經存在則記錄存儲時刻,更新頻次;如果不存在,創建新記錄。本專利技術所提供的檢索請求語義擴展方法能夠實現多維度語義擴展,并且通過最優匹配組合查詢將大量的多重組合集快速聚焦到有效檢索組合集中,實現了充分的語義擴展與真實有意義的檢索組合的有機結合,有效提高了搜索結果的精度。附圖說明圖1是本專利技術所提供的檢索請求語義擴展方法的流程圖;圖2是本專利技術中,知識樹節點的結構示意圖。具體實施例方式本專利技術提供了,將關鍵詞結成知識樹,每個關鍵詞形成的語義節點由其子節點的語義集合支撐。在此基礎上,利用擴展的關鍵詞集合,在檢索組合庫中查詢最優匹配的組合,用以聚焦擴展后的檢索組合。下面結合附圖和具體實施例,對上述技術方案做進一步的詳細說明。如圖1所示,本專利技術所提供的檢索請求語義擴展方法包括如下步驟接收檢索請求;分詞處理,過濾停用詞;利用知識樹生成語義擴展集合;結合檢索組合庫進行最優匹配組合查詢;生成有效檢索組合集。其中,在接收檢索請求步驟得到用戶輸入的檢索請求后,通過分詞處理,消除停用詞,生成語義明確的詞匯一關鍵詞。每個關鍵詞投影到知識樹中的語義節點上,以便對關鍵詞的語義進行多維度擴展。這樣,語義擴展集合是通過知識樹擴展后的關鍵詞組合。通過擴展后的關鍵詞組合因多維度的充分語義擴展,詞集基往往會很大,關鍵詞組合呈指數增長。為此,在最優匹配組合查詢步驟中以新生成的關鍵詞組合進行輸入,查詢檢索組合庫,得到關鍵詞組合的頻度和匹配相似度,然后利用這兩項特征對關鍵詞組合計算得分,并進行排序。在排序后優選關鍵詞組合的個數,得到有效檢索組合,同時將用戶已經輸入的檢索請求的關鍵詞組合并入其中,生成有效檢索組合集。在生成有效檢索組合集后,將用戶繼續輸入的關鍵詞組合存儲到檢索組合庫中,如果此關鍵詞組合已經存在則記錄存儲時刻,更新頻次;如果不存在,創建新記錄。本檢索請求語義擴展方法的主要特點在于基于知識樹的關鍵詞多維度語義擴展。該知識樹用于實現語義節點的存儲,每個語義節點具有一級語義詞匯集合作為支撐,其具體結構如圖2所示。例如在語義節點I和語義節點2中,分別含有同義詞集、漢語拼音集、拆字變形集、錯別字詞集和一些簡寫等其他變形詞集。知識樹由若干個語義節點構成,每個語義節點下包括不同維度的語義擴展,描述了語義節點中語義擴展的形式及其多維度的屬性。這樣的知識樹可由人工創建并維護。在本專利技術中,接收檢索請求步驟用于提供用戶檢索請求的輸入通道。在分詞處理步驟中,對接收的檢索請求內容進行分詞處理,得到有語義的關鍵詞,并將停用詞過濾,以便減少不必要的計算。在最優匹配組合查詢步驟中,通過語義擴展后的詞集在檢索組合庫中找到頻度、匹配精度兩方面組合最優的檢索請求項集合。這里的檢索組合庫是歷史檢索關鍵詞組合庫,記錄了檢索關鍵詞組合請求的時刻、頻次。有效檢索組合集是通過上述最優匹配組合查詢步驟得到最優的檢索組合集與用戶已提交的檢索請求的并集。在基于知識樹的關鍵詞多維度語義擴展之后,利用歷史檢索組合記錄聚焦高頻、高相似度的檢索組合,生成有效檢索組合集。在形成有效檢索組合集的過程中,本專利技術將檢索到的最優匹配組合集與用戶已提交的檢索請求合并,以保證最基本的檢索質量。下面通過一個實施例對本檢索請求語義擴展方法展開具體說明。例如查詢關鍵詞網頁內容在知識樹中語義節本文檔來自技高網...
【技術保護點】
一種檢索請求語義擴展方法,其特征在于包括如下步驟:接收用戶的檢索請求;對所述檢索請求進行分詞處理,生成關鍵詞;基于知識樹對所述關鍵詞進行語義擴展,生成擴展后的關鍵詞組合;對所述關鍵詞組合,結合檢索組合庫進行最優匹配組合查詢,得到有效檢索組合;將所述有效檢索組合與用戶已經輸入的檢索請求合并,生成有效檢索組合集。
【技術特征摘要】
【專利技術屬性】
技術研發人員:龐曉曦,王樹強,宋傳寶,
申請(專利權)人:北京海量融通軟件技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。