• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種網絡爬蟲的數據處理系統及方法技術方案

    技術編號:24331353 閱讀:27 留言:0更新日期:2020-05-29 19:43
    本發明專利技術涉及一種網絡爬蟲的數據處理系統及方法,通過接收針對待爬取網頁URL的重復性校驗請求,以及待爬取網頁URL多個特征信息集合成的特征信息集;將所述待爬取網頁URL的每個特征信息輸入至校驗布隆過濾器,通過所有特征信息同時判斷URL的重復性,由于每個特征信息均配置有一組或多組哈希函數組,即使某個特征信息在校驗時,其中一哈希函數組中出現了誤判,由于一個特征信息需要同時經一組或多組哈希函數組驗證,因此除非每組哈希函數組都產生了誤判,否則對最終的判斷不影響,且由于所述待爬取網頁URL的所有特征信息同時用來判斷URL的重復性,即使某個特征信息在校驗時有誤判,對最終的判斷不影響,因此保證了校驗的準確性。

    A data processing system and method of web crawler

    【技術實現步驟摘要】
    一種網絡爬蟲的數據處理系統及方法
    本專利技術涉及PC互聯網/移動互聯網,尤其涉及一種網絡爬蟲的數據處理系統及方法。
    技術介紹
    隨著PC互聯網/移動互聯網的飛速發展,網絡爬蟲技術越來越受到重視。網絡爬蟲通過下載指定網頁中的所有網址鏈接來獲取信息。但是,在面對海量的網頁信息時,為了盡可能多的爬取目標網頁,往往是采用網絡爬蟲分布到多個機器集群上采用分布式網絡爬蟲進行爬取,且對已經爬取過的網頁不再爬取。為了防止重復爬取,目前常用的方式是將爬取過的URL保存在布隆過濾器中,通過布隆過濾器進行URL的重復性校驗,布隆過濾器作為一種多哈希函數映射的快速查找算法,查詢時間快,空間消耗小。它可以判斷出某個元素URL肯定不在已經爬取過的URL集合里或者可能在集合里,即布隆過濾器不會漏報,但可能會出現在其他元素插入過程中出現占位,被偶然置為1,導致誤報。因此,采用該種方法進行URL的重復性校驗時,準確性有限,尤其是當URL數目過于巨大時,其準確性更是有待考證。
    技術實現思路
    為了解決上述技術問題,本專利技術的目的在于提供一種網絡爬蟲的數據處理系統及方法。根據本專利技術的一個方面,提供了一種網絡爬蟲的數據處理系統,包括:URL特征信息獲取單元,配置用于接收針對待爬取網頁URL的重復性校驗請求,以及所述待爬取網頁URL多個特征信息集合成的所述待爬取網頁URL的特征信息集;URL重復性校驗單元,配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,對所述待爬取網頁URL進行重復性校驗,其中,所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,且每組哈希函數組包括一個或多個哈希函數。其中,多組哈希函數組,即哈希函數組的數量為2組及以上。每組哈希函數組包括一個或多個哈希函數,每組哈希函數組中包括多個哈希函數時要求每組哈希函數組中哈希函數的數量為2個及以上。進一步的,所述待爬取網頁URL的多個特征信息,包括所述待爬取網頁URL的內容、類型、字段長度、字符個數中的多個。即所述待爬取網頁URL的多個特征信息,包括所述待爬取網頁URL的內容、類型、字段長度、字符個數中的2個及以上,如包括所述待爬取網頁URL的內容、類型,或所述待爬取網頁URL的內容、類型、字段長度,或所述待爬取網頁URL的內容、類型、字段長度、字符個數等。進一步的,URL特征信息獲取單元接收的重復性校驗請求所針對的所述待爬取網頁URL是根據預設網頁鏈接深度所得。預設網頁鏈接深度包括外部鏈接深度、內部鏈接深度。其中,外部鏈接深度是指在建設網站外鏈接的時候,所進行的一系列的網站內部頁面與對方網站內部頁面間的所有鏈接;內部鏈接深度就是本網站內部頁面之間的深度鏈接。進一步的,URL重復性校驗單元配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器配置的一組或多組哈希函數組中,得到相應的一組或多組數組位置,若每組數組位置在輸入相應特征信息時被置為1的數量均超過預設閾值,則確認所述待爬取網頁URL已被爬取。根據本專利技術的另一個方面,提供了一種網絡爬蟲的數據處理方法,包括以下步驟:S1、接收針對待爬取網頁URL的重復性校驗請求,以及所述待爬取網頁URL多個特征信息集合成的所述待爬取網頁URL的特征信息集;S2、將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,對所述待爬取網頁URL進行重復性校驗,其中,所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,且每組哈希函數組包括一個或多個哈希函數。進一步的,所述的網絡爬蟲的數據處理方法,還包括:若所述待爬取網頁URL屬于所述已爬取URL集合,則所述待爬取網頁URL已爬取過,接收針對下一待爬取網頁URL的重復性校驗請求,以及所述下一待爬取網頁URL的特征信息集,執行步驟S1-S2,否則則驅動所述待爬取網頁URL對應的網絡爬蟲系統,執行對所述待爬取網頁URL的爬取操作。進一步的,所述待爬取網頁URL的多個特征信息,包括所述待爬取網頁URL的內容、類型、字段長度、字符個數中的多個。進一步的,S1接收的重復性校驗請求所針對的所述待爬取網頁URL是根據預設網頁鏈接深度所得。進一步的,S3包括:將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器配置的一組或多組哈希函數組中,得到相應的一組或多組數組位置,若每組數組位置在輸入相應特征信息時被置為1的數量均超過預設閾值,則確認所述待爬取網頁URL已被爬取。根據本專利技術的另一個方面,提供了一種設備,所述設備包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器執行如上任一項所述的方法。根據本專利技術的另一個方面,提供了一種存儲有計算機程序的計算機可讀存介質,該程序被處理器執行時實現如上任一項所述的方法。與現有技術相比,本專利技術具有以下有益效果:1、本專利技術示例的網絡爬蟲的數據處理系統,URL特征信息獲取單元配置用于接收針對待爬取網頁URL的重復性校驗請求,以及待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集;URL重復性校驗單元將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,通過所述待爬取網頁URL的所有特征信息同時判斷所述待爬取網頁URL的重復性,對所述待爬取網頁URL進行重復性校驗,由于所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,而每組哈希函數組包括一個或多個哈希函數,即使在校驗時,某個特征信息輸入的一組哈希函數組中出現了占位情況,也對最終的判斷不影響,除非每組哈希函數組都產生了誤判,即使所述待爬取網頁URL的某個特征信息在校驗時可能有誤判,但是同時用來判斷所述待爬取網頁URL重復性的所有特征信息同時出現誤判的幾率極低,即除非所述待爬取網頁URL的所有特征信息對應的所有哈希函數組都有誤判,否則則對最終的判斷不影響,因此保證了所述待爬取網頁URL重復性校驗的準確性。2、本專利技術示例的網絡爬蟲的數據處理方法,通過接收針對待爬取網頁URL的重復性校驗請求,以及待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集;將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,通過所述待爬取網頁URL的所有特征信息同時判斷所述待爬取網頁URL的重復性,對所述待爬取網頁URL進行重復性校驗,且由于所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,即使某個特征信息在校驗時,其中一哈希函數組中出現了誤判,由于一個特征信息需要同時經一組或多組哈希函數組驗證,因此除非每組哈希函數組都產生了誤判,否則對最終的判斷不影響,且由于所述待爬取網頁URL的所有特征信息同時用來判斷所述待爬取網頁URL的重復性,即使所述待爬取網頁URL的某個特征信息在校驗時有誤判,對最終的判斷不影響,因此保證了所述待爬取本文檔來自技高網...

    【技術保護點】
    1.一種網絡爬蟲的數據處理系統,其特征是,包括:/nURL特征信息獲取單元,配置用于接收針對待爬取網頁URL的重復性校驗請求,以及用于接收待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集;/nURL重復性校驗單元,配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,對所述待爬取網頁URL進行重復性校驗,其中,所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,且每組哈希函數組包括一個或多個哈希函數。/n

    【技術特征摘要】
    1.一種網絡爬蟲的數據處理系統,其特征是,包括:
    URL特征信息獲取單元,配置用于接收針對待爬取網頁URL的重復性校驗請求,以及用于接收待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集;
    URL重復性校驗單元,配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器,對所述待爬取網頁URL進行重復性校驗,其中,所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組,且每組哈希函數組包括一個或多個哈希函數。


    2.根據權利要求1所述的網絡爬蟲的數據處理系統,其特征是,所述待爬取網頁URL的多個特征信息,包括所述待爬取網頁URL的內容、類型、字段長度、字符個數中的多個。


    3.根據權利要求1所述的網絡爬蟲的數據處理系統,其特征是,URL特征信息獲取單元接收的重復性校驗請求所針對的所述待爬取網頁URL是根據預設網頁鏈接深度所得。


    4.根據權利要求3所述的網絡爬蟲的數據處理系統,其特征是,預設網頁鏈接深度包括外部鏈接深度、內部鏈接深度。


    5.根據權利要求1-4任一所述的網絡爬蟲的數據處理系統,其特征是,
    URL重復性校驗單元配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器配置的一組或多組哈希函數組中,得到相應的一組或多組數組位置,若每組數組位置在輸入相應特征信息時被置為1的數量均超過預設閾值,則確認所述待爬取網頁URL已被爬取。


    6.一種網絡爬蟲的數據處理方法,其特征是,包括以下步驟:
    S1...

    【專利技術屬性】
    技術研發人員:曾慶維
    申請(專利權)人:順豐科技有限公司
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕亚洲精品无码| 亚洲AV无码专区亚洲AV桃| 成人无码区免费A∨直播| 影音先锋无码a∨男人资源站| 在线A级毛片无码免费真人| 亚洲av无码乱码在线观看野外| HEYZO无码综合国产精品| 久久老子午夜精品无码| 无码狠狠躁久久久久久久| 国产高清无码毛片| 亚洲AV无码乱码麻豆精品国产| 国模无码视频一区二区三区| 国产av永久无码天堂影院| 亚洲成av人无码亚洲成av人| 国产白丝无码免费视频| 午夜无码熟熟妇丰满人妻| 国产亚洲大尺度无码无码专线 | 亚洲AV无码成人精品区日韩| 亚洲AV无码乱码精品国产| 久久精品无码一区二区WWW| 中文国产成人精品久久亚洲精品AⅤ无码精品| 国产免费无码一区二区| 国产精品无码久久av不卡| 亚洲AV永久无码精品一百度影院 | 免费无码国产在线观国内自拍中文字幕| 人妻少妇AV无码一区二区| 国产精品爽爽V在线观看无码| 亚洲av永久无码精品表情包| 国产福利电影一区二区三区久久老子无码午夜伦不 | 国产成人AV无码精品| 午夜福利无码一区二区| 无码专区AAAAAA免费视频| 国产成人无码av| 日韩成人无码影院| 无码国产精品一区二区高潮| 亚洲av永久无码精品秋霞电影秋| 少妇人妻偷人精品无码视频 | 国产精品无码素人福利| 精品人妻无码一区二区色欲产成人 | 欲色aV无码一区二区人妻| 国产精品无码专区|