一種網絡爬蟲的數據處理系統及方法技術方案

技術編號：24331353 閱讀：27 留言：0更新日期：2020-05-29 19:43

本發明專利技術涉及一種網絡爬蟲的數據處理系統及方法，通過接收針對待爬取網頁URL的重復性校驗請求，以及待爬取網頁URL多個特征信息集合成的特征信息集；將所述待爬取網頁URL的每個特征信息輸入至校驗布隆過濾器，通過所有特征信息同時判斷URL的重復性，由于每個特征信息均配置有一組或多組哈希函數組，即使某個特征信息在校驗時，其中一哈希函數組中出現了誤判，由于一個特征信息需要同時經一組或多組哈希函數組驗證，因此除非每組哈希函數組都產生了誤判，否則對最終的判斷不影響，且由于所述待爬取網頁URL的所有特征信息同時用來判斷URL的重復性，即使某個特征信息在校驗時有誤判，對最終的判斷不影響，因此保證了校驗的準確性。

A data processing system and method of web crawler

全部詳細技術資料下載

【技術實現步驟摘要】
一種網絡爬蟲的數據處理系統及方法
本專利技術涉及PC互聯網/移動互聯網，尤其涉及一種網絡爬蟲的數據處理系統及方法。
技術介紹
隨著PC互聯網/移動互聯網的飛速發展，網絡爬蟲技術越來越受到重視。網絡爬蟲通過下載指定網頁中的所有網址鏈接來獲取信息。但是，在面對海量的網頁信息時，為了盡可能多的爬取目標網頁，往往是采用網絡爬蟲分布到多個機器集群上采用分布式網絡爬蟲進行爬取，且對已經爬取過的網頁不再爬取。為了防止重復爬取，目前常用的方式是將爬取過的URL保存在布隆過濾器中，通過布隆過濾器進行URL的重復性校驗，布隆過濾器作為一種多哈希函數映射的快速查找算法，查詢時間快，空間消耗小。它可以判斷出某個元素URL肯定不在已經爬取過的URL集合里或者可能在集合里，即布隆過濾器不會漏報，但可能會出現在其他元素插入過程中出現占位，被偶然置為1，導致誤報。因此，采用該種方法進行URL的重復性校驗時，準確性有限，尤其是當URL數目過于巨大時，其準確性更是有待考證。
技術實現思路
為了解決上述技術問題，本專利技術的目的在于提供一種網絡爬蟲的數據處理系統及方法。根據本專利技術的一個方面，提供了一種網絡爬蟲的數據處理系統，包括：URL特征信息獲取單元，配置用于接收針對待爬取網頁URL的重復性校驗請求，以及所述待爬取網頁URL多個特征信息集合成的所述待爬取網頁URL的特征信息集；URL重復性校驗單元，配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器，對所述待爬取網頁URL進行重復性校驗...

【技術保護點】
1.一種網絡爬蟲的數據處理系統，其特征是，包括：/nURL特征信息獲取單元，配置用于接收針對待爬取網頁URL的重復性校驗請求，以及用于接收待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集；/nURL重復性校驗單元，配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器，對所述待爬取網頁URL進行重復性校驗，其中，所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組，且每組哈希函數組包括一個或多個哈希函數。/n

【技術特征摘要】
1.一種網絡爬蟲的數據處理系統，其特征是，包括：
URL特征信息獲取單元，配置用于接收針對待爬取網頁URL的重復性校驗請求，以及用于接收待爬取網頁URL多個特征信息集合成的待爬取網頁URL的特征信息集；
URL重復性校驗單元，配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器，對所述待爬取網頁URL進行重復性校驗，其中，所述校驗布隆過濾器針對所述待爬取網頁URL的每個特征信息均配置有一組或多組哈希函數組，且每組哈希函數組包括一個或多個哈希函數。

2.根據權利要求1所述的網絡爬蟲的數據處理系統，其特征是，所述待爬取網頁URL的多個特征信息，包括所述待爬取網頁URL的內容、類型、字段長度、字符個數中的多個。

3.根據權利要求1所述的網絡爬蟲的數據處理系統，其特征是，URL特征信息獲取單元接收的重復性校驗請求所針對的所述待爬取網頁URL是根據預設網頁鏈接深度所得。

4.根據權利要求3所述的網絡爬蟲的數據處理系統，其特征是，預設網頁鏈接深度包括外部鏈接深度、內部鏈接深度。

5.根據權利要求1-4任一所述的網絡爬蟲的數據處理系統，其特征是，
URL重復性校驗單元配置用于將所述待爬取網頁URL的特征信息集輸入至校驗布隆過濾器配置的一組或多組哈希函數組中，得到相應的一組或多組數組位置，若每組數組位置在輸入相應特征信息時被置為1的數量均超過預設閾值，則確認所述待爬取網頁URL已被爬取。

6.一種網絡爬蟲的數據處理方法，其特征是，包括以下步驟：
S1...

【專利技術屬性】
技術研發人員：曾慶維，
申請(專利權)人：順豐科技有限公司，
類型：發明
國別省市：廣東;44

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術