• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種利用搜索引擎進行查詢擴展的方法及系統技術方案

    技術編號:8271531 閱讀:270 留言:0更新日期:2013-01-31 03:48
    本發明專利技術涉及互聯網搜索領域,提供了一種利用搜索引擎進行查詢擴展的方法,具體包括,獲得搜索引擎集群中的每個搜索引擎的檢索結果,通過對檢索結果進行評價獲得每個搜索引擎的權重;確定用戶查詢的核心詞和修飾詞,并以此為基礎確定擴展詞,從而形成擴展查詢進行搜索。本發明專利技術還提供了一種利用搜索引擎進行查詢擴展的系統。采用上述技術方案,依據搜索引擎集群的檢索結果對用戶的核心需求進行擴展,一方面使得用戶的需求更加明確,避免了基于局部數據查詢擴展的負反饋效果或主題漂移的風險,另一方面可以給用戶提供多角度、多側面的查詢結果,極大范圍地滿足用戶需求,甚至可以引導用戶需求,使得搜索引擎的用戶體驗得到大幅的提升。

    【技術實現步驟摘要】
    本專利技術涉及互聯網搜索
    ,特別地涉及一種利用搜索引擎進行查詢擴展的方法及系統
    技術介紹
    隨著計算機技術及互聯網技術的飛速發展,互聯網上的數據和信息急劇增長。面對海量的數字化信息,人們通常需要通過搜索引擎來獲取他們想要的信息。而對于搜索引擎而言,如何能夠更好的理解用戶的需求,如何能夠從海量的數據中提取用戶感興趣的信息返回給用戶,已經成為首要的課題。對于通用搜索引擎而言,通常只有一個輸入框接受用戶的查詢。這就使得理解用戶的查詢核心需求以及具體需求細節變得有挑戰性。如果用戶的查詢語句太短,則很難弄清用戶需求的全部細節,檢索結果往往與用戶的需求部分相關;如果用戶的查詢語句過長,則很難把握用戶的核心需求,很可能查詢結果偏離用戶的核心需求,或者只滿足部分需求,顧此失彼。 為了更好的理解用戶的查詢意圖,進而提高搜索引擎檢索的準確率和召回率,查詢擴展技術應運而生。目前的查詢擴展技術主要包括基于全局分析的查詢擴展、基于局部分析的查詢擴展、基于查詢日志的查詢擴展和基于語義資源的查詢擴展。基于全局分析的查詢擴展通過挖掘大數據集上詞語之間的相關度進行查詢擴展。對通用搜索引擎而言,其數據集全體及其龐大,基于全局的數據分析對時間、設備的需求是極其巨大的;同時由于可能的歧義影響,全局分析擴展出的查詢語義需求可能更加模糊,使得檢索結果變差。因此,這種方法在實際的搜索引擎中鮮有采用。基于局部分析的查詢擴展包括相關反饋和偽相關反饋。相關反饋方法是搜索引擎算法中的經典方法。該方法先用用戶的初始查詢,得到搜索結果,通過用戶點擊,得到相關文檔集合,和不相關文檔集合,對與查詢相關性高的詞進行加權,相關性差的進行降權,一些詞甚至可以刪除。最早Rocchio提出相關反饋模型是搜索引擎的經典模型,可以參考Christopher D. Manning, Prabhakar Raghavan, HinrichSchiitze: An Introduction to Information Retrieval. Cambridge University Press,2009。其缺點是一方面,它需要用戶點擊,需要大量的查詢日志的積累,另一方面,它的參數選取需大量實驗來確定最優,而全局最優參數通常在局部查詢中效果并不理想。因此,直接使用相關反饋進行查詢擴展的實例并不多。偽相關反饋方法近年來被廣為使用。該方法假定初始查詢結果中高排名的文檔是與用戶感興趣的主題相關的,于是從高排名的文檔中提取詞來擴展查詢語句。例如CN200910132193. 5提供了查詢擴展方法及查詢擴展設備,針對給定的查詢語句進行搜索,得到查詢結果;在所得到的查詢結果集合中,在排名在前一定數目的查詢結果子集中進行聚類,生成簇;對簇進行排序;從排名在前一定數目的簇中提取詞,把所提取的詞添加到查詢語句,生成新的查詢語句。不過偽相關反饋方法對初始結果很敏感,若初始結果比較相關,則呈現正反饋;若初始結果比較不相關,則呈現負反饋。基于查詢日志的查詢擴展方法是另一種比較常用的方法,該方法通過對日志進行分析給出擴展的查詢建議。例如CN200710097501. 6提供了查詢擴展方法和裝置以及相關檢索詞庫,將用戶的查詢行為記錄按照該用戶的身份標識和訪問時間劃分為至少一個查詢事件和查詢單元;周期性地計算所述各個查詢單元或者查詢事件中的檢索詞之間的相關度,根據計算出的檢索詞之間的相關度對相關檢索詞庫進行更新;在相關檢索詞庫中檢索與用戶查詢時所輸入的檢索詞的相關度接近的相關檢索詞,形成查詢擴展結果。與相關反饋方法類似,基于查詢日志分析的方法同樣需要大量的查詢日志的積累。基于語義概念的查詢擴展方法利用領域本體,語義網,語義詞典等語義資源,對查詢進行擴展。例如CN200810116729.X提供了一種基于領域知識的語義查詢擴展方法,根據對領域知識和用戶查詢語句特征的分析,構建領域知識庫;然后利用領域知識庫內容,對用戶輸入的查詢語句進行語義處理,獲得一個語義項列表;利用語義項列表,結合領域知識庫內容,通過語義計算得到可擴展項;將所獲得的可擴展項提交搜索系統進行查詢。基于語義概念的方法的缺點在于一方面語義資源的建立需要大量人力物力,另一方面,基于語義 的擴展只針對用戶查詢進行分析,沒有考慮搜索引擎的數據分布,可能造成擴展的查詢與數據不匹配,從而不能返回較好的結果。
    技術實現思路
    本專利技術解決的技術問題在于提供了一種利用搜索引擎進行查詢擴展的方法,以解決目前查詢擴展依賴性強以及需要龐大資源的問題,本專利技術還提供了一種利用搜索引擎進行查詢擴展的系統。為解決上述問題,本專利技術實施例提供了一種利用搜索引擎進行查詢擴展的方法,具體包括,用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,所述檢索結果被收集到一個文檔池中,N為自然數;根據文檔池中的文檔對每個搜索引擎進行評價,從而獲得每個搜索引擎的權重;根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞;根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞;根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢;利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。本專利技術實施例還提供了一種利用搜索引擎進行查詢擴展的系統,具體包括,搜索引擎查詢模塊,用于將用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,這些檢索結果被收集到一個文檔池中;搜索引擎評價模塊,用于根據文檔池中的文檔對每個搜索弓I擎進行評價,從而獲得每個搜索弓I擎的權重;核心詞確定模塊,用于根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞;修飾詞確定模塊,用于根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞;擴展詞生成模塊,用于根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢;查詢結果獲取模塊,用于利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。采用上述技術方案,依據搜索引擎集群的檢索結果對用戶的核心需求進行擴展,一方面使得用戶的需求更加明確,避免了基于局部數據查詢擴展的負反饋效果或主題漂移的風險,另一方面可以給用戶提供多角度、多側面的查詢結果,極大范圍地滿足用戶需求,甚至可以引導用戶需求,使得搜索引擎的用戶體驗得到大幅的提升。附圖說明此處所說明的附圖用來提供對本專利技術的進一步理解,構成本專利技術的一部分,本專利技術的示意性實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中圖I是本專利技術第一實施例流程圖;圖2是本專利技術第二實施例結構圖。具體實施方式·為了使本專利技術所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。如圖I所示,是本專利技術第一實施例流程圖,提供了一種利用搜索引擎進行查詢擴展的方法,具體包括,步驟S101,用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,這些檢索結果被收集到一個文檔池pool中;具體地,所述搜索引擎集群中的每個搜索引擎本文檔來自技高網
    ...

    【技術保護點】
    一種利用搜索引擎集群進行查詢擴展的方法,其特征在于,包括,用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,所述檢索結果被收集到一個文檔池中,N為自然數;根據文檔池中的文檔對每個搜索引擎進行評價,從而獲得每個搜索引擎的權重;根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞;根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞;根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢;利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。

    【技術特征摘要】
    1.一種利用搜索引擎集群進行查詢擴展的方法,其特征在于,包括, 用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,所述檢索結果被收集到一個文檔池中,N為自然數; 根據文檔池中的文檔對每個搜索引擎進行評價,從而獲得每個搜索引擎的權重; 根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞; 根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞; 根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢; 利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。2.根據權利要求I所述的方法,其特征在于,所述根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞具體包括, 過濾用戶查詢中的停用詞; 提取用戶查詢中的實體詞; 根據文檔池中文檔的信息和各個搜索引擎的權重給用戶查詢中除停用詞外的每個詞語打分,詞語打分最高的至少一個詞語被標識為核心詞。3.根據權利要求2所述的方法,其特征在于,所述提取用戶查詢中的實體詞具體包括, 從分類實體詞庫中提取實體詞; 識別查詢中的命名實體; 進行實體名的消歧工作,對于有沖突的實體名進行處理,確定最后的實體名輸出列表。4.根據權利要求2所述的方法,其特征在于,所述根據文檔池中文檔的信息和各個搜索引擎的權重給用戶查詢中除停用詞外的每個詞語打分具體包括, 所述詞語的最終打分score = f (Score1, score2), Score1是詞語自身屬性的打分,Score2是根據文檔池中文檔的信息和各個搜索引擎的權重信息得到的詞語在相關文檔中的打分,f表不兩種打分的稱合方式。5.根據權利要求I所述的方法,其特征在于,所述根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞具體包括, 對核心詞進行分類; 在核心詞有確定分類時,根據核心詞類別確定修飾詞的特征模板,并利用該模板在用戶查詢中查找匹配的修飾詞; 當核心詞無確定分類時,進行句法分析,比如依存句法分析,尋找核心詞的修飾成分。6.根據權利要求I所述的方法,其特征在于,所述根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞具體包括, 獲得潛在擴展詞的綜合得分score = Score1 * Score2,其中Score1是根據文檔池中文檔的信息和各個搜索引擎的權重信息得到的該擴展詞與核心詞和修飾詞的關聯得分,Score2是擴展詞自身的顯著性得分; 在得到潛在擴展詞的打分后,排名前X個擴展詞將被選中和原始查詢的核心詞及修飾詞一起組成擴展后的查詢,其中X的設定將取決于主搜索引擎的承載能力和原始查詢的需求類別,所述X為自然數。7.一種利用搜索引擎進行查詢擴展的系統,其特征在于,包括,搜索引擎查詢模塊,用于...

    【專利技術屬性】
    技術研發人員:石志偉雷大偉車天文周步戀楊振東王更生王喜民何宏靖徐憶蘇
    申請(專利權)人:深圳市宜搜科技發展有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成年免费a级毛片免费看无码| 日韩乱码人妻无码中文字幕视频| 91久久精品无码一区二区毛片| 无码专区狠狠躁躁天天躁| 亚洲成AV人片在线观看无码| 亚洲AV无码国产精品永久一区| 亚洲日韩精品无码专区网站| 无码精品国产dvd在线观看9久| 无码av中文一二三区| 久久AV高潮AV无码AV| 亚洲精品无码av人在线观看| 国产精品无码一区二区在线观 | 无码日韩精品一区二区免费| 人妻无码久久中文字幕专区| 中文字幕AV无码一区二区三区 | 国产成人无码一区二区在线播放| 精品爆乳一区二区三区无码av| 欧洲精品无码一区二区三区在线播放| 亚洲精品无码久久久久久| 亚洲AV无码专区电影在线观看| 人妻无码久久中文字幕专区 | 无码精品人妻一区二区三区人妻斩 | 亚洲人成影院在线无码按摩店| 亚洲欧洲AV无码专区| 无码内射中文字幕岛国片| 在线高清无码A.| 中文字幕无码一区二区三区本日| 97无码免费人妻超级碰碰碰碰| 国产成人无码AV麻豆| 久久精品国产亚洲AV无码偷窥| 一本色道久久HEZYO无码| 最新国产精品无码| 中文字幕丰满乱子伦无码专区 | 国产成人综合日韩精品无码不卡| 内射无码午夜多人| 精品久久久久久无码中文字幕| 国产精品无码一区二区在线观一| 亚洲人成无码久久电影网站| 狠狠躁狠狠爱免费视频无码| 久久精品无码一区二区app| 不卡无码人妻一区三区音频|