The present invention provides a method and a device for generating candidate set of pages, including the generation method: capture and analyze multiple web pages, to obtain attribute information and text information of each page; according to the text information each page is divided into several categories according to the attribute of each page of the letter; separately determine the \meet the candidate page the default set of conditions; each page will meet the preset conditions of the set of candidate pages are stored in categories, each category of the set of candidate pages. The candidate pages generated by the invention set, can ensure the timeliness of the candidate pages at the same time, can also ensure that the recall rate of candidate pages and accuracy, and ensure the recall at the same time scale of only millions of magnitude, which can effectively solve the problem of network spider technology required for processing large amounts of data in, need to consume a large amount of the problem of time, so as to improve the efficiency of network spider crawling.
【技術(shù)實現(xiàn)步驟摘要】
候選頁面集合的生成方法及裝置
本專利技術(shù)是關(guān)于信息搜索技術(shù),具體地,是關(guān)于一種候選頁面集合的生成方法及裝置。
技術(shù)介紹
搜索引擎對于互聯(lián)網(wǎng)上出現(xiàn)的實時熱點需要第一時間發(fā)現(xiàn)和收錄。搜索引擎蜘蛛有一個龐大的URL(UniformResourceLocator,統(tǒng)一資源定位符)庫,規(guī)模達到數(shù)千億甚至上萬億量級。網(wǎng)絡蜘蛛所有的抓取都從這個URL庫出發(fā),即從URL庫中挑選出一批URL,對這批URL實施抓取,從中發(fā)現(xiàn)新鏈接再添加到URL庫中。熱點鏈接就是從中被發(fā)現(xiàn)并通過下次選取抓取和收錄的。但是,因為網(wǎng)絡蜘蛛所處理的數(shù)據(jù)量過于龐大,需要消耗大量的時間,把全部鏈接挑一遍再抓一遍很難保證所有的熱點都能在第一時間被發(fā)現(xiàn)和收錄。因此,如何能使網(wǎng)絡蜘蛛找出一個精簡但又覆蓋完整的候選頁面集合,是目前亟待解決的問題。
技術(shù)實現(xiàn)思路
本專利技術(shù)實施例的主要目的在于提供一種候選頁面集合的生成方法及裝置,以克服上述問題,從而提高網(wǎng)頁抓取的效率。為了實現(xiàn)上述目的,本專利技術(shù)實施例提供一種候選頁面集合的生成方法,該生成方法包括:抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。在一實施例中,在將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合之后,該生成方法還包括:判斷各類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當候選頁面集合中的網(wǎng)頁滿足停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁 ...
【技術(shù)保護點】
一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。
【技術(shù)特征摘要】
1.一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。2.根據(jù)權(quán)利要求1所述的候選頁面集合的生成方法,其特征在于,在所述步驟d之后,所述的生成方法還包括:步驟e:判斷各所述類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當所述候選頁面集合中的網(wǎng)頁滿足所述停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。3.根據(jù)權(quán)利要求2所述的候選頁面集合的生成方法,其特征在于,所述的生成方法還包括:當所述候選頁面集合中的網(wǎng)頁不滿足所述停止條件時,返回所述步驟a,抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息。4.根據(jù)權(quán)利要求1至3中任一項所述的候選頁面集合的生成方法,其特征在于,所述步驟c具體包括:將每個所述網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定所述網(wǎng)頁中新鏈接的數(shù)量;判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。5.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件,具體包括:判斷所述新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則所述新鏈接的數(shù)量滿足所述候選頁面集合中新鏈接數(shù)量的條件。6.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,所述步驟c進一步包括:根據(jù)一索引篩選條件確定所述新鏈接中符合索引條件的鏈接的數(shù)量;判斷所述新鏈接中符合索引條件的鏈...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:魏少俊,
申請(專利權(quán))人:北京奇虎科技有限公司,奇智軟件北京有限公司,
類型:發(fā)明
國別省市:北京,11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。