本發(fā)明專利技術(shù)公開了一種搜索引擎動態(tài)摘要提取方法,所述方法包括以下步驟:獲取用戶輸入的查詢詞;根據(jù)所述查詢詞,截取摘要候選段落;獲取所述候選段落的段權(quán)值;選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要。本發(fā)明專利技術(shù)以用戶查詢詞為中心進行摘要候選段落的截取,并根據(jù)段權(quán)值選擇候選段落,將選擇的候選段落合并生成摘要,從而提高了摘要和用戶查詢相關(guān)性與原文檔和用戶查詢相關(guān)性之間一致性。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及搜索引擎
,特別是涉及一種搜索引擎動態(tài)摘要提取方法。
技術(shù)介紹
在網(wǎng)絡(luò)信息極大豐富的今天,為了快速而準(zhǔn)確的找到所需的信息,搜索引擎應(yīng)運而生,成為現(xiàn)代網(wǎng)絡(luò)的重要工具。雖然現(xiàn)代搜索引擎提供了較準(zhǔn)確的結(jié)果排序,然而時常會有一些靠前的結(jié)果并不是用戶所需要的,出現(xiàn)這樣的情況一是搜索引擎是基于全文索引技術(shù)提供服務(wù)的,只要文檔中包含查詢詞就會返回的,所以很大可能存在與用戶查詢需求不相關(guān)的文檔,二是因為查詢詞未必可以完全展現(xiàn)用戶的意圖。因此,用戶會通過閱讀摘要來判定鏈接的價值。那么摘要的好壞直接影響到用戶對鏈接價值判定的準(zhǔn)確性,摘要的質(zhì)量也成為用戶選擇搜索引擎的標(biāo)準(zhǔn)之一。綜上可知摘要對于搜索引擎有著重要的意義,其意義就在于對用戶判斷鏈接價值時所起到的指導(dǎo)性作用。好的摘要應(yīng)當(dāng)做到不對用戶產(chǎn)生誤導(dǎo),這種誤導(dǎo)主要有兩種情況:類型一:原本與用戶查詢較相關(guān)的鏈接,用戶閱讀摘要后感覺不相關(guān),從而忽略該鏈接。類型二:原本與用戶查詢不相關(guān)的鏈接,用戶閱讀摘要后感覺相關(guān),從而點擊鏈接閱讀原文。目前在摘要方面已有不少研究。Tombros等人在1998年得出結(jié)論以查詢?yōu)橹行牡膭討B(tài)摘要相比較以內(nèi)容為中心的靜態(tài)摘要,更容易找到相關(guān)文檔(A.Tombros?and?M.Sanderson,Advantages?of?querybiased?summaries?in?information?retrieval,in?Proceedings?of?the?21stannual?international?ACM?SIGIR?conference?on?Research?and-->development?in?information?retrieval.Melbourne,Australia:ACM,1998.)。但是該研究對象是新聞類文檔,且沒有驗證該方法在搜索引擎摘要中的有效性。Das等人在2007年對以往的自動文檔摘要研究工作做了綜述,對于單文檔摘要,多文檔摘要的發(fā)展給出較全面的概括(D.Das?and?A.F.T.Martins,A?Survey?on?Automatic?TextSummarization,Language?Technologies?Institute,CMU?2007.),但是沒有考慮針對網(wǎng)頁形成動態(tài)摘要的情況。Ferragina等人在2005年利用搜索引擎動態(tài)摘要來做個性化的搜索引擎(P.Ferragina?and?A.Gulli,Apersonalized?search?engine?based?on?web-snippet?hierarchical?clustering,in?Special?interest?tracks?and?posters?of?the?14th?international?conferenceon?World?Wide?Web.Chiba,Japan:ACM,2005.),但是沒有涉及到如何構(gòu)建有效的動態(tài)摘要.李曉明等在2005年給出了一種便于理解和實現(xiàn)的簡單的動態(tài)摘要算法(李曉明,閆宏飛,and王繼民,搜索引擎-原理、技術(shù)與系統(tǒng):科學(xué)出版社,2005.第五章第三節(jié))。蔡建山等人在2007年基于滑動窗口提取動態(tài)摘要(蔡建山遲呈英戰(zhàn)學(xué)剛and王丫,基于滑動窗口的動態(tài)摘要算法,計算機工程33卷6期2007),但是窗口的初始位置是從每個查詢詞的開始位置開始的,忽略了查詢詞前有意義的文字,且實驗部分簡陋,實驗結(jié)果難以重現(xiàn)。
技術(shù)實現(xiàn)思路
本專利技術(shù)提供了一種搜索引擎動態(tài)摘要提取方法,目的是為解決現(xiàn)有技術(shù)中摘要和用戶查詢相關(guān)性與原文檔和用戶查詢相關(guān)性之間一致性不高的問題。為達到上述目的,本專利技術(shù)實施例的技術(shù)方案提供一種搜索引擎動態(tài)摘要提取方法,所述方法包括以下步驟:獲取用戶輸入的查詢詞;根據(jù)所述查詢詞,截取摘要候選段落;獲取所述候選段落的段權(quán)值;選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要。-->其中,在所述截取摘要候選段落的步驟中,具體包括:從所述查詢詞在文中的位置開始向兩邊延伸;根據(jù)向前閾值、終結(jié)標(biāo)點集或上一段的結(jié)尾,獲取所述候選段落的起始位置;根據(jù)所述起始位置和候選段落長度的設(shè)定值,獲取所述候選段落的初始結(jié)束位置;根據(jù)所述初始結(jié)束位置、向前、向后閾值和終結(jié)標(biāo)點集,獲取所述候選段落的結(jié)束位置。其中,所述獲取候選段落的起始位置的步驟,具體包括:在所述查詢詞在文中的位置向前延伸的長度大于所述向前閾值時、或找到所述終結(jié)標(biāo)點集中的終結(jié)標(biāo)點時、或達到上一段的結(jié)尾時的位置為所述候選段落的起始位置。其中,所述初始結(jié)束位置為所述起始位置和候選段落長度的設(shè)定值之和。其中,所述獲取候選段落的結(jié)束位置的步驟,具體包括:在所述查詢詞在文中的位置向后延伸的長度大于所述向后閾值時、或從所述初始結(jié)束位置向前、向后調(diào)整找到所述終結(jié)標(biāo)點集中的終結(jié)標(biāo)點時的位置為所述候選段落的結(jié)束位置。其中,在所述獲取候選段落的段權(quán)值的步驟中,具體包括:根據(jù)查詢詞在候選段落中出現(xiàn)的頻率獲取查詢詞權(quán)值。根據(jù)所述查詢詞的權(quán)值和所述查詢詞在所述候選段落中出現(xiàn)的次數(shù),獲取落在所述候選段落中的查詢詞的權(quán)值之和。其中,在所述獲取查詢詞的權(quán)值的步驟中,具體包括:當(dāng)所述查詢詞在候選段落中第一次出現(xiàn)時,其權(quán)值為C1,當(dāng)所述查詢詞在第一次之后在所述候選段落中出現(xiàn)時,其權(quán)值為C2;為某候選段落計算權(quán)值時,所有查詢詞的權(quán)值都初始化為C1。其中,所述C1為1,所述C2為0.01。其中,在所述選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要的步驟中,還包括:當(dāng)選擇的候選段落-->的個數(shù)小于所述預(yù)先設(shè)定個數(shù)時,擴展所述選擇的候選段落,使所述選擇的候選段落的長度達到預(yù)先設(shè)定個數(shù)的候選段落的長度。其中,在所述選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要的步驟中,還包括:當(dāng)選擇的候選段落的個數(shù)為0時,以正文的首段話作摘要。與現(xiàn)有技術(shù)相比,本專利技術(shù)的技術(shù)方案具有如下優(yōu)點:本專利技術(shù)以用戶查詢詞為中心進行摘要候選段落的截取,并根據(jù)段權(quán)值選擇候選段落,將選擇的候選段落合并生成摘要,從而提高了摘要和用戶查詢相關(guān)性與原文檔和用戶查詢相關(guān)性之間一致性。附圖說明圖1是本專利技術(shù)的一種搜索引擎動態(tài)摘要提取方法的流程圖。具體實施方式下面結(jié)合附圖和實施例,對本專利技術(shù)的具體實施方式作進一步詳細(xì)描述。以下實施例用于說明本專利技術(shù),但不用來限制本專利技術(shù)的范圍。本專利技術(shù)的一種搜索引擎動態(tài)摘要提取方法的流程如圖1所示,包括以下步驟:步驟s101,獲取用戶輸入的查詢詞。步驟s102,根據(jù)查詢詞,截取摘要候選段落。首先從所述查詢詞在文中的位置開始向兩邊延伸;然后根據(jù)向前閾值、終結(jié)標(biāo)點集或上一段的結(jié)尾,獲取所述候選段落的起始位置,在所述查詢詞在文中的位置向前延伸的長度大于所述向前閾值時、或找到所述終結(jié)標(biāo)點集中的終結(jié)標(biāo)點時、或達到上一段的結(jié)尾時的位置為所述候選段落的起始位置;再根據(jù)所述起始位置和候選段落長度的設(shè)定值,獲取所述候選段落的初始結(jié)束位置,所述初始結(jié)束位置為所述起始位置和候選段落長度的設(shè)定值之和;最后根據(jù)所述初始結(jié)束位置、向前、向后閾值和終結(jié)標(biāo)點集,獲取所述候選段落的結(jié)束位置,在所述查詢詞在文中的位置向后延伸的長度大于所述向后閾值時、或從本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種搜索引擎動態(tài)摘要提取方法,其特征在于,所述方法包括以下步驟: 獲取用戶輸入的查詢詞; 根據(jù)所述查詢詞,截取摘要候選段落; 獲取所述候選段落的段權(quán)值; 選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要。
【技術(shù)特征摘要】
1、一種搜索引擎動態(tài)摘要提取方法,其特征在于,所述方法包括以下步驟:獲取用戶輸入的查詢詞;根據(jù)所述查詢詞,截取摘要候選段落;獲取所述候選段落的段權(quán)值;選取段權(quán)值最高的預(yù)先設(shè)定個數(shù)的候選段落,并將選擇的候選段落合并生成摘要。2、如權(quán)利要求1所述的搜索引擎動態(tài)摘要提取方法,其特征在于,在所述截取摘要候選段落的步驟中,具體包括:從所述查詢詞在文中的位置開始向兩邊延伸;根據(jù)向前閾值、終結(jié)標(biāo)點集或上一段的結(jié)尾,獲取所述候選段落的起始位置;根據(jù)所述起始位置和候選段落長度的設(shè)定值,獲取所述候選段落的初始結(jié)束位置;根據(jù)所述初始結(jié)束位置、向前、向后閾值和終結(jié)標(biāo)點集,獲取所述候選段落的結(jié)束位置。3、如權(quán)利要求2所述的搜索引擎動態(tài)摘要提取方法,其特征在于,所述獲取候選段落的起始位置的步驟,具體包括:在所述查詢詞在文中的位置向前延伸的長度大于所述向前閾值時、或找到所述終結(jié)標(biāo)點集中的終結(jié)標(biāo)點時、或達到上一段的結(jié)尾時的位置為所述候選段落的起始位置。4、如權(quán)利要求2或3所述的搜索引擎動態(tài)摘要提取方法,其特征在于,所述初始結(jié)束位置為所述起始位置和候選段落長度的設(shè)定值之和。5、如權(quán)利要求4所述的搜索引擎動態(tài)摘要提取方法,其特征在于,所述獲取候選段落的結(jié)束位置的步驟,具體包括:在所述查詢詞在文中的位置向后延伸的長度大于所述向后閾值時、或從所述初始結(jié)束位置向前向后調(diào)整找到所述終結(jié)標(biāo)點...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:閆宏飛,樹柏涵,李曉明,
申請(專利權(quán))人:北京大學(xué),
類型:發(fā)明
國別省市:11[中國|北京]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。