• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    候選頁面集合的生成方法及裝置制造方法及圖紙

    技術(shù)編號:15690875 閱讀:55 留言:0更新日期:2017-06-24 03:37
    本發(fā)明專利技術(shù)提供一種候選頁面集合的生成方法及裝置,該生成方法包括:抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。通過本發(fā)明專利技術(shù)生成的候選頁面集合,在能夠保證候選頁面的時效性的同時,也能保證候選頁面的召回率及準確率,且在保證召回的同時規(guī)模只有百萬量級,可有效解決相關(guān)技術(shù)中網(wǎng)絡蜘蛛所需處理的數(shù)據(jù)量過大、需要消耗大量的時間的問題,從而提高網(wǎng)絡蜘蛛抓取網(wǎng)頁的效率。

    Method and device for generating candidate page set

    The present invention provides a method and a device for generating candidate set of pages, including the generation method: capture and analyze multiple web pages, to obtain attribute information and text information of each page; according to the text information each page is divided into several categories according to the attribute of each page of the letter; separately determine the \meet the candidate page the default set of conditions; each page will meet the preset conditions of the set of candidate pages are stored in categories, each category of the set of candidate pages. The candidate pages generated by the invention set, can ensure the timeliness of the candidate pages at the same time, can also ensure that the recall rate of candidate pages and accuracy, and ensure the recall at the same time scale of only millions of magnitude, which can effectively solve the problem of network spider technology required for processing large amounts of data in, need to consume a large amount of the problem of time, so as to improve the efficiency of network spider crawling.

    【技術(shù)實現(xiàn)步驟摘要】
    候選頁面集合的生成方法及裝置
    本專利技術(shù)是關(guān)于信息搜索技術(shù),具體地,是關(guān)于一種候選頁面集合的生成方法及裝置。
    技術(shù)介紹
    搜索引擎對于互聯(lián)網(wǎng)上出現(xiàn)的實時熱點需要第一時間發(fā)現(xiàn)和收錄。搜索引擎蜘蛛有一個龐大的URL(UniformResourceLocator,統(tǒng)一資源定位符)庫,規(guī)模達到數(shù)千億甚至上萬億量級。網(wǎng)絡蜘蛛所有的抓取都從這個URL庫出發(fā),即從URL庫中挑選出一批URL,對這批URL實施抓取,從中發(fā)現(xiàn)新鏈接再添加到URL庫中。熱點鏈接就是從中被發(fā)現(xiàn)并通過下次選取抓取和收錄的。但是,因為網(wǎng)絡蜘蛛所處理的數(shù)據(jù)量過于龐大,需要消耗大量的時間,把全部鏈接挑一遍再抓一遍很難保證所有的熱點都能在第一時間被發(fā)現(xiàn)和收錄。因此,如何能使網(wǎng)絡蜘蛛找出一個精簡但又覆蓋完整的候選頁面集合,是目前亟待解決的問題。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)實施例的主要目的在于提供一種候選頁面集合的生成方法及裝置,以克服上述問題,從而提高網(wǎng)頁抓取的效率。為了實現(xiàn)上述目的,本專利技術(shù)實施例提供一種候選頁面集合的生成方法,該生成方法包括:抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。在一實施例中,在將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合之后,該生成方法還包括:判斷各類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當候選頁面集合中的網(wǎng)頁滿足停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。進一步地,該生成方法還包括:當候選頁面集合中的網(wǎng)頁不滿足停止條件時,返回抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,具體包括:將每個網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定網(wǎng)頁中新鏈接的數(shù)量;判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。進一步地,判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件,具體包括:判斷新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則新鏈接的數(shù)量滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,進一步包括:根據(jù)一索引篩選條件確定新鏈接中符合索引條件的鏈接的數(shù)量;判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。進一步地,判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條,具體包括:判斷新鏈接中符合索引條件的鏈接的數(shù)量是否大于或等于一第二預設數(shù)值;如果是,則新鏈接中符合索引條件的鏈接的數(shù)量滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,進一步包括:將新鏈接中符合索引條件的鏈接按照URL進行歸類;判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件。進一步地,判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件,具體包括:判斷每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量是否大于或等于一第三預設數(shù)值,且每一類URL對應的網(wǎng)頁中符合索引條件的新鏈接的數(shù)量是否大于或等于一第四預設數(shù)值;如果是,則每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接數(shù)量的條件,則各初步篩選網(wǎng)頁滿足預設的候選頁面集合條件。本專利技術(shù)實施例還提供一種候選頁面集合的生成裝置,該生成裝置包括:網(wǎng)頁抓取單元,用于抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;類別劃分單元,用于根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;候選頁面集合條件判斷單元,用于根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;候選頁面集合生成單元,用于將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。在一實施例中,上述的生成裝置還包括:停止條件判斷單元,用于判斷各類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當候選頁面集合中的網(wǎng)頁滿足停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。在一實施例中,上述的停止條件判斷單元還用于:當候選頁面集合中的網(wǎng)頁不滿足停止條件時,觸發(fā)網(wǎng)頁抓取單元,抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息。在一實施例中,上述的候選頁面集合條件判斷單元具體包括:新鏈接確定模塊,用于將每個網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定網(wǎng)頁中新鏈接的數(shù)量;新鏈接條件判斷模塊,用于判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的新鏈接條件判斷模塊具體用于:判斷新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則新鏈接的數(shù)量滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的候選頁面集合條件判斷單元進一步包括:符合索引條件鏈接確定模塊,用于根據(jù)一索引篩選條件確定新鏈接中符合索引條件的鏈接的數(shù)量;索引條件判斷模塊,用于判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的索引條件判斷模塊具體用于:判斷新鏈接中符合索引條件的鏈接的數(shù)量是否大于或等于一第二預設數(shù)值;如果是,則新鏈接中符合索引條件的鏈接的數(shù)量滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的候選頁面集合條件判斷單元進一步包括:鏈接歸類模塊,用于將新鏈接中符合索引條件的鏈接按照URL進行歸類;持續(xù)產(chǎn)生鏈接條件判斷模塊,用于判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件。在一實施例中,上述的持續(xù)產(chǎn)生鏈接條件判斷模塊具體用于:判斷每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量是否大于或等于一第三預設數(shù)值,且每一類URL對應的網(wǎng)頁中符合索引條件的新鏈接的數(shù)量是否大于或等于一第四預設數(shù)值;如果是,則每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接數(shù)量的條件,則各初步篩選網(wǎng)頁滿足預設的候選頁面集合條件。本專利技術(shù)實施例的有益效果在于,通過本專利技術(shù)生成的候選頁面集合,在能夠保證候選頁面的時效性的同時,也能保證候選頁面的召回率及準確率,且在保證召回的同時規(guī)模只有百萬量級,可有效解決相關(guān)技術(shù)中網(wǎng)絡蜘蛛所需處理的數(shù)據(jù)量過大、需要消耗大量的時間的問題,從而提高網(wǎng)絡蜘蛛抓取網(wǎng)頁的效率。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為根據(jù)本專利技術(shù)實施例的候選頁面集合的生成方法的流程圖;圖2為根據(jù)本專利技術(shù)另一實施例的候選頁面集合的生成方法的流程圖;圖3為根據(jù)本專利技術(shù)實施例的候選頁面集合的生成裝置的結(jié)構(gòu)示意圖;圖4為根據(jù)本專利技術(shù)實施例的候選頁面集合條件判斷單元300的結(jié)構(gòu)示意圖;圖5為根據(jù)本專利技術(shù)另一實施例的候選頁面集合條件判斷單元300本文檔來自技高網(wǎng)...
    候選頁面集合的生成方法及裝置

    【技術(shù)保護點】
    一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。

    【技術(shù)特征摘要】
    1.一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。2.根據(jù)權(quán)利要求1所述的候選頁面集合的生成方法,其特征在于,在所述步驟d之后,所述的生成方法還包括:步驟e:判斷各所述類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當所述候選頁面集合中的網(wǎng)頁滿足所述停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。3.根據(jù)權(quán)利要求2所述的候選頁面集合的生成方法,其特征在于,所述的生成方法還包括:當所述候選頁面集合中的網(wǎng)頁不滿足所述停止條件時,返回所述步驟a,抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息。4.根據(jù)權(quán)利要求1至3中任一項所述的候選頁面集合的生成方法,其特征在于,所述步驟c具體包括:將每個所述網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定所述網(wǎng)頁中新鏈接的數(shù)量;判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。5.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件,具體包括:判斷所述新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則所述新鏈接的數(shù)量滿足所述候選頁面集合中新鏈接數(shù)量的條件。6.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,所述步驟c進一步包括:根據(jù)一索引篩選條件確定所述新鏈接中符合索引條件的鏈接的數(shù)量;判斷所述新鏈接中符合索引條件的鏈...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:魏少俊
    申請(專利權(quán))人:北京奇虎科技有限公司奇智軟件北京有限公司
    類型:發(fā)明
    國別省市:北京,11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 97在线视频人妻无码| 亚洲av极品无码专区在线观看| 西西午夜无码大胆啪啪国模| 亚洲av无码不卡| 亚洲中文久久精品无码1| 熟妇人妻无码xxx视频| 亚洲中文字幕久久精品无码APP| 久热中文字幕无码视频| 国产强被迫伦姧在线观看无码| 韩国免费a级作爱片无码| 无码成人精品区在线观看| 久久久久成人精品无码| 亚洲精品无码一区二区| 国产AV巨作情欲放纵无码| 精品乱码一区内射人妻无码| 久久国产亚洲精品无码 | 91久久九九无码成人网站| 免费无码A片一区二三区| 无码国产精品一区二区免费模式| 无码中文字幕色专区| 色综合久久久无码网中文| 国产AV无码专区亚洲精品 | 久久青青草原亚洲av无码| 亚洲AV无码之国产精品| 无码精品日韩中文字幕| 亚洲熟妇无码乱子AV电影| 丰满少妇人妻无码| 免费人妻av无码专区| 久久久无码精品午夜| 一本久道综合在线无码人妻 | 久久久g0g0午夜无码精品| 日韩精品无码中文字幕一区二区| 日韩人妻无码精品专区| 亚洲AⅤ无码一区二区三区在线| 亚洲GV天堂GV无码男同| 国产在线拍揄自揄拍无码视频| 亚洲AV无码一区二区三区性色| 亚洲日韩国产精品无码av| 精品爆乳一区二区三区无码av| 亚洲av永久无码精品网站| 亚洲AV中文无码字幕色三|