• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于樹形結構的檢索方法技術

    技術編號:13014737 閱讀:110 留言:0更新日期:2016-03-16 13:21
    本發明專利技術提出了一種基于樹形結構的檢索方法,用于中文搜索引擎中對中文網頁數據的處理,包括:步驟S100,網頁數據預處理;步驟S200,建立網頁數據索引文件;步驟S300,接收用戶輸入的查詢字符串,根據網頁數據索引進行檢索。本發明專利技術采用二元內相關后續樹模型為網頁數據創建索引,同時考慮了字索引和詞索引的優缺點,在減少索引空間的同時提高了檢索效率。

    【技術實現步驟摘要】

    本專利技術涉及數據處理領域,具體涉及。
    技術介紹
    隨著互聯網的飛速發展,信息的指數增長,數據形式的多樣性,人們很難在海亮的信息中快速地找到符合自己需求的部分。全文數據庫的出現,大大改善了這一現狀。全文數據庫,也稱為文本數據庫,它是管理海量文本的系統。全文數據庫要完成的工作仍然是傳統數據庫的兩大功能:存儲和檢索,具體而言就是文本數據的存儲和任意字符串的檢索。作為檢索條件的字符串可以是常量型字符串,也可以是正則表達式(或其他方式,比如距離限制等等)表示的一組具有共同特征的字符串集合。目前比較常見和流行的全文檢索模型有以下幾種模型:署名文件(SignatureFiles)、位圖(Bit Map)、倒排表(Inverted List)、Σ2矩陣Pat樹和Pat數組等等。這些模型在專家們的努力下,已經相當成熟并在實踐中得到廣泛應用。從書目索引延伸出來的方法就是現在應用最廣泛的倒排表模型。它具有創建索引速度較快的特點,在網絡搜索引擎中廣泛應用。但其所需的存儲空間較大,查詢速度較慢。署名文件雖然實現簡單,但是要找到一個合適的散列函數和一個寬度適合的矢量非常困難,而且因對象而異。如果沒有選擇好,則查詢結果就會出現相當的不確定性。位圖文件索引結構思路簡單,使用方便,時間效率高,在布爾檢索上尤其高效,但是其空間效率很低,即使使用了位圖壓縮算法,仍然難以接受。Pat樹模型的最大優點是檢索效率很高,尤其對模型特殊的檢索,如前綴檢索、范圍檢索等檢索效率更高。然而同位圖模型一樣,空間效率極低,而且創建過程中空間開銷更大,創建效率也很低。Pat數組是對Pat樹的修改,它將Pat樹的葉節點串行化就得到了 Pat數組。Pat數組雖然很大程度上壓縮了創建過程中的開銷,但是,因為采用數組的存儲方式,其創建和合并需要移動大量的數據,動態性很難令人滿意。
    技術實現思路
    至少部分的解決現有技術中存在的問題,本專利技術提出,用于中文搜索引擎中對中文網頁數據的處理,包括:步驟S100,網頁數據預處理;步驟S200,建立網頁數據索引文件;步驟S300,接收用戶輸入的查詢字符串,根據網頁數據索引進行檢索。所述的基于樹形結構的檢索方法,其中,步驟S200中的所述網頁數據索引文件是對處理后的網頁數據所建立的網頁數據索引組成的文件。所述的基于樹形結構的檢索方法,其中,所述網頁數據索引為字索引。所述的基于樹形結構的檢索方法,其中,所述網頁數據索引為詞索引。所述的基于樹形結構的檢索方法,其中,所述網頁數據索引為字索引和詞索引。所述的基于樹形結構的檢索方法,其中,所述網頁數據索引是基于二元內相關后續樹創建的索引。所述的基于樹形結構的檢索方法,其中,步驟S100進一步包括:首先對抓取的原始網頁進行分類,然后再按照分類分別提取網頁中的文本信息,得到分類后的文本信息;生成網頁索引文件的過程包括為原始網頁的每個分類分別建立網頁索引文件。所述的基于樹形結構的檢索方法,其中,在步驟S200中,建立網頁數據索引文件進一步包括:首先,判斷每個分類的文本信息的容量,當所述分類的容量小于1GB時,為所述分類的文本信息建立字索引,當所述分類的容量大于等于1GB時,為所述分類的文本信息建立詞索引。所述的基于樹形結構的檢索方法,進一步包括:將查詢字符串分別分解為字和詞,對于網頁數據索引是字索引的情況,按字根據所述字索引來進行檢索;對于網頁數據索引是詞索引的情況,按分詞根據所述詞索引來進行檢索。所述的基于樹形結構的檢索方法,具體的檢索過程為:第一階段,針對網頁數據索引是字索引的情況進行檢索;首先順序讀入查詢字符串分解后的每一個字,取第一個字A,針對字索引,在二元內相關后續樹中找到以A為根的樹,然后在樹A的葉子中逐個分支地匹配查詢字符串的下一個字B,匹配到B的話則將B的后續編號加入隊列,直到A的全部分支都匹配結束;轉到以B為根的樹,從隊列中取出B樹的分支號,查找相應的葉子結點來匹配字符串中的下一個字C,如此循環直到有一次匹配過程中沒有匹配到或者查詢字符串全部匹配結束,如果匹配成功,則意味著找到了包含查詢字符串的原文;第二階段,針對網頁數據索引是詞索引的情況進行檢索;首先順序讀入查詢字符串分解后的每一個詞,取第一個詞A,針對詞索引,在二元內相關后續樹中找到以A為根的樹,然后在樹A的葉子中逐個分支地匹配查詢字符串的下一個詞B,匹配到B的話則將B的后續編號加入隊列,直到A的全部分支都匹配結束;轉到以B為根的樹,從隊列中取出B樹的分支號,查找相應的葉子結點來匹配字符串中的下一個詞C,如此循環直到有一次匹配過程中沒有匹配到或者查詢字符串全部匹配結束,如果匹配成功,則意味著找到了包含查詢字符串的原文。本專利技術采用二元內相關后續樹模型為網頁數據創建索引,同時考慮了字索引和詞索引的優缺點,在減少索引空間的同時提尚了檢索效率。【附圖說明】圖1為本專利技術基于樹形結構的檢索方法的流程圖;【具體實施方式】下面將結合本專利技術的附圖,對本專利技術的技術方案進行清楚、完整地描述。這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本專利技術相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本專利技術的一些方面相一致的裝置和方法的例子。首先,對本專利技術中用到一些術語介紹如下:(1)源文檔庫:源文檔庫是指由網絡爬蟲從互聯網上抓取的原始網頁文件集合,用來建立索引為用戶檢索使用,該集合不是靜態的,根據抓取的策略或者定期批量更新,或者增量更新,主要以保證系統的時新性為主,即將新出現的網頁盡量及時的抓取過來建立索引,滿足用戶的檢索需求;(2)預處理:預處理是指對抓取的網頁文件進行處理的過程,包括:建立索引網頁庫、網頁信息提取,建立索引網頁庫就是要實現給定一個網頁的URL,在索引網頁庫中能夠找到該URL所對應的網頁;網頁信息提取就是從網頁中提取建立索引所需要的文本信息,包括標題、正文等;(3)文本:源文檔庫經過預處理步驟的網頁信息提取所形成的文本信息的集合,是建立索引的直接對象;(4)分詞詞典:分詞詞典是分詞操作的基礎,是漢語詞匯的集合,用來在分詞時辨別并切分出文本中的單詞;(5)分詞操作:分詞操作就是將文本切分成詞匯組合的過程,預處理后的文本和用戶輸入的查詢字符串都是它的操作對象,它能依據分詞詞典在文本字符串中正確匹配到詞匯,剔除掉停用詞,輸出標引詞或檢索詞的集合;(6)建立內相關后續樹索引:該操作就是對文本分詞后形成的標引詞集合建立內相關后續樹的過程;(7)詞索引文件:詞索引文件就是上一步操作中生成的索引文件,在詞索引文件中每個標引詞都有一棵以它為根的后續樹,樹的結點中包含了標引詞所在文本的編號以及它的后續信息;(8)查詢字符串:用戶的查詢需求通常是以字符串的形式來表示的,最簡單的查詢字符串往往是單個的詞,對于較長的查詢字符串,如短語或句子,要進行分詞處理,所采用的分詞算法應和對文本使用的分詞算法一致,以保證檢索結果的準確性;(9)檢索操作:對于檢索詞的集合根據內相關后續樹模型的查找算法,在詞索引文件中進行查找,將匹配到的文本號輸出到結果集;(10)結果集:結果集是一般是指通過檢索操作所得到的查詢本文檔來自技高網
    ...

    【技術保護點】
    一種基于樹形結構的檢索方法,用于中文搜索引擎中對中文網頁數據的處理,包括:步驟S100,網頁數據預處理;步驟S200,建立網頁數據索引文件;步驟S300,接收用戶輸入的查詢字符串,根據網頁數據索引進行檢索。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:陳虹宇羅陽苗寧
    申請(專利權)人:四川神琥科技有限公司
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码一区二区| 一本色道无码道在线观看| 国产精品毛片无码| 久久久久成人精品无码| 久久99久久无码毛片一区二区 | 国产网红无码精品视频| 亚洲人成网亚洲欧洲无码久久| 白嫩少妇激情无码| 久久国产精品无码网站| 无码人妻精品一区二区三区99性| 国内精品久久人妻无码不卡| 亚洲熟妇无码久久精品| 内射人妻少妇无码一本一道| 亚洲AV永久无码天堂影院 | 亚洲国产精品无码专区| 免费A级毛片无码免费视| 小13箩利洗澡无码视频网站| 亚洲av无码成人精品区| 亚洲中文无码亚洲人成影院| 无码无遮挡又大又爽又黄的视频| 人妻无码久久精品| 无码AV大香线蕉| 亚洲一区AV无码少妇电影| 无码国产精品一区二区免费vr | 亚洲国产精品无码AAA片| 无码综合天天久久综合网| 亚洲最大天堂无码精品区| 亚洲熟妇无码爱v在线观看| 亚洲av无码潮喷在线观看| 亚洲色中文字幕无码AV| 亚洲国产综合无码一区二区二三区 | JAVA性无码HD中文| 无码日韩精品一区二区免费暖暖| 综合国产在线观看无码| 一本之道高清无码视频| 无码人妻少妇伦在线电影| 无码精品人妻一区二区三区免费| 内射无码专区久久亚洲| 无码人妻一区二区三区免费视频 | 少妇无码?V无码专区在线观看| 在线看片福利无码网址|