可以通過識別所希望的子查詢生成查詢建議。可以累積搜索引擎數(shù)據(jù)來為各種查詢確定使用特征。可以根據(jù)使用數(shù)據(jù)生成和排名潛在子查詢。在對潛在子查詢進行排名之后,當接收到搜索請求時,可以使用排名來選擇子查詢。可以將所選的子查詢直接用作查詢建議,或可以將子查詢用作另一個查詢建議引擎的輸入。
【技術(shù)實現(xiàn)步驟摘要】
【國外來華專利技術(shù)】利用子查詢自動生成查詢建議
技術(shù)介紹
像可在網(wǎng)絡(luò)上獲得的文檔那樣的龐大文檔集合的關(guān)鍵詞或查詢搜索現(xiàn)在是常見的活動。隨著搜索引擎越來越唾手可得,使用搜索技術(shù)的用戶的數(shù)量增加了,并且這些用戶搜索越來越廣的主題。因此,許多用戶在用戶不熟悉的主題領(lǐng)域中進行許多搜索。這可能導(dǎo)致用戶難以構(gòu)想搜索查詢。在努力幫助用戶的搜索技術(shù)中,有時提供查詢建議作為對搜索查詢的響應(yīng)的一部分。查詢建議向用戶提供用戶可以選擇的可替代查詢。這可以幫助用戶識別可能更好地適用于找到感興趣信息的其他搜索查詢
技術(shù)實現(xiàn)思路
在各種實施例中,可以通過識別所希望的子查詢生成查詢建議。可以累積搜索引 擎數(shù)據(jù)來為各種查詢確定使用特征。可以根據(jù)使用數(shù)據(jù)生成和排名潛在子查詢。在對潛在子查詢進行排名之后,當接收到搜索請求時,可以使用排名來選擇子查詢。可以將所選的子查詢直接用作查詢建議,或可以將子查詢用作另一個查詢建議引擎的輸入。提供本
技術(shù)實現(xiàn)思路
來以簡化形式介紹下面在具體實施方式中進一步描述的概念的選擇。本
技術(shù)實現(xiàn)思路
不旨在識別要求保護主題的關(guān)鍵特征或必要特征,也不是旨在用于孤立地幫助確定要求保護主題的范圍。附圖說明下面參考附圖詳細描述本專利技術(shù),在附圖中 圖I是用在實現(xiàn)本專利技術(shù)的實施例中的示范性計算環(huán)境的框 圖2示意性地示出了適合執(zhí)行本專利技術(shù)的實施例的系統(tǒng); 圖3描繪了按照本專利技術(shù)的實施例的方法的流程 圖4描繪了按照本專利技術(shù)的實施例的方法的流程 圖5描繪了按照本專利技術(shù)的實施例的方法的流程圖;以及圖6和7描繪了根據(jù)使用漢語書面語言查詢元素的本專利技術(shù)實施例的應(yīng)用所得的結(jié)果。具體實施方式概況 在各種實施例中,提供了生成查詢建議的系統(tǒng)和方法。查詢建議的生成可以基于首先識別具有高排名的一個或多個子查詢。可以將一個或多個高排名子查詢用作查詢建議,或可以將一個或多個子查詢用作傳統(tǒng)查詢建議方法的輸入。在一些實施例中,這些系統(tǒng)和方法可以用于基于像包含4到大約60個查詢元素的查詢那樣的較長查詢的查詢建議。在其他實施例中,可以使用不需要人為干預(yù)的系統(tǒng)和方法自動生成查詢建議。這些系統(tǒng)和方法也可以與用于語言的查詢元素的性質(zhì)無關(guān)地應(yīng)用于各種語言。因此,這些系統(tǒng)和方法可以有效地應(yīng)用于查詢元素是單詞的查詢(像英語的查詢那樣),以及查詢元素是字的查詢(像漢語、日語或朝鮮語那樣的查詢)。盡管向用戶提供查詢建議是傳統(tǒng)做法,但提供高質(zhì)量建議仍然存在許多障礙。一種這樣的障礙是提供基于含有大量查詢項的查詢的查詢建議。越來越多的搜索查詢是包括4個或更多個關(guān)鍵詞或查詢元素的查詢。項數(shù)增加的的一部分是使用“自然語言”查詢的增力口,其中查詢是部分或甚至整個句子而不是關(guān)鍵詞的集合。經(jīng)驗不足的用戶更易于構(gòu)想這樣的長查詢。長查詢也可以用于進一步指定所希望搜索目標。當搜索龐大文檔集合時,較長的查詢可以有助于生成更相關(guān)排序的搜索結(jié)果。雖然較長查詢可以為搜索者帶來好處,但提供所建議查詢的傳統(tǒng)方法對于長查詢可能不那么有效。許多查詢建議方法基于流行項的附加或相關(guān)項的替代。對于只有兩個或三個查詢元素的搜索查詢,每個查詢元素可以用作改變查詢的基礎(chǔ)而無需生成從中選擇的選項的過大清單。但是,隨著一個查詢越來越長,變體的數(shù)量可以成指數(shù)增加,導(dǎo)致為了確定查詢建議而評估的大量排列。提供查詢建議的另一個難題可能與跨越各種語言地提供查詢建議有關(guān)。例如,查 詢建議算法使用自然語言查詢的語法以便把重點放在最相關(guān)查詢元素上。不幸的是,這種手段需要為使用的每種不同語言修改查詢建議算法。由于像漢語那樣的基于字書面語言的語法差異很大,所以這樣的修改可能相當大。另外,即使在像英語那樣的單一語言內(nèi),對于每個講英語區(qū)域,語法的變體也可能需要不同的算法。相關(guān)問題是對于查詢建議需要人為干預(yù)或訓(xùn)練的任何搜索引擎所面臨的難題。人為訓(xùn)練可以包括提供特殊方式對待的單詞的詞典,例如作出建議時可以忽略的單詞,或應(yīng)該關(guān)聯(lián)的單詞。人為訓(xùn)練還可以包括提供用于開發(fā)關(guān)聯(lián)性的一組訓(xùn)練文檔。不管訓(xùn)練的類型為何,對人為干預(yù)的需要將意味著對查詢建議系統(tǒng)的更新將是不頻繁和耗時的。這可能導(dǎo)致來自查詢建議系統(tǒng)的建議是過時的。在一些實施例中,提供了不依靠查詢建議系統(tǒng)的人為訓(xùn)練地自動提供查詢建議的系統(tǒng)和方法。該系統(tǒng)和方法可以獨立于語言語法,使得該系統(tǒng)和方法稍作修改或不修改就可以用于各種語言。另外,該系統(tǒng)和方法可以有效地根據(jù)具有4個到大約60個查詢項的查詢作出查詢建議。另外,在一些實施例中,該系統(tǒng)和方法可以與現(xiàn)有查詢建議系統(tǒng)結(jié)合在一起使用。杳詢和子杳詢 查詢可以包括一個或多個查詢元素。查詢元素是查詢的獨立部分。對于英語的查詢,查詢項通常是單詞。注意,“單詞”在這里表示搜索者可以用作和理解為單個查詢項的一組字母、數(shù)字和/或其他符號。例如,尋找有關(guān)丙烷的附加信息的搜索者輸入“C3H8”作為查詢的一部分。在這種狀況下,應(yīng)該理解為“C3H8”構(gòu)成查詢項。可選地,對于允許搜索例如用引號或括號將一系列單詞放入查詢內(nèi)的短語的搜索引擎,這樣的短語可以被認為是單個查詢項。相反,在有關(guān)chocolate cake的查詢中,不認為字母“ch”是查詢項,因為這不是所提交的查詢內(nèi)的完整“單詞”。在像漢語、日語或朝鮮語那樣的基于字書面語言中,查詢元素可以是字。將查詢中的查詢長度定義成該查詢中的查詢元素的數(shù)量。在一些實施例中,可以為任何查詢長度的所有查詢提供查詢建議。可替代的是,可以為查詢長度為至少4個查詢元素到大約60個查詢元素的查詢提供查詢建議。查詢長度可以是至少4個查詢元素,至少5個查詢元素,或至少6個查詢元素。查詢長度可以是大約75個或更少個查詢元素,大約60個或更少個查詢元素,大約50個或更少個查詢元素,或大約40個或更少個查詢元素。子查詢是由母查詢的一個或多個查詢元素形成的查詢。識別查詢的可能子查詢的一種方式是形成η元組(n-gram)。形成η元組的一種方式是在保留查詢元素的次序的同時形成導(dǎo)致較短查詢的查詢元素的任何可能組合。換句話說,可以不改變其余查詢元素的次序地從查詢的頭部、中部或尾部開始從查詢中移除查詢元素。這樣的η元組可以稱為位置相關(guān)η元組。對于四元素查詢,可能子查詢可以對應(yīng)于四個I元素η元組、六個2-元素η元組、和四個3-元素η元組。可替代的是,可以形成允許查詢元素在子查詢中改變位置的位置無關(guān)子查詢,對于包含四個查詢元素的查詢,存在四個I元素位置無關(guān)子查詢、12個2元素位置無關(guān)子查詢、和24個3-元素位置無關(guān)子查詢。在又一個實施例中,可以從母查詢中使用查詢項的連續(xù)串形成子查詢。在這樣的實施例中,可以從母查詢的頭部或尾部開始舍棄查詢項,但如果查詢項在保留在子查詢中的其他查詢項之間,則不舍棄該查詢項。對于包含四個查詢元素的查詢,這種類型的實施例可以產(chǎn)生四個I元素子查詢、三個2元素子查詢、和兩個3元素子查詢。 在可選實施例中,查詢或子查詢可以包括查詢中的任何查詢元素的顯而易見變體。例如,一些文字處理程序現(xiàn)在都包括拼寫檢查功能,其中如果預(yù)定單詞應(yīng)該是什么是比較明確的,則可以自動糾正未出現(xiàn)在拼寫檢查詞典中的單詞。在這樣的可選實施例中,可以在例如通過形成η元組來形成子查詢的過程之前糾正拼寫錯誤。可替代的是,當試圖匹配查詢時,可以顧及這樣的拼寫差異。在另一個可選實施例中,從母查詢中形成的η元組(或其他子查詢)可以局限于小于查詢項本文檔來自技高網(wǎng)...
【技術(shù)保護點】
【技術(shù)特征摘要】
【國外來華專利技術(shù)】...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陸建平,張東暉,HSK萬,
申請(專利權(quán))人:微軟公司,
類型:
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。