【技術實現步驟摘要】
本專利技術涉及搜索引擎
,尤其涉及。
技術介紹
隨著互聯網信息的爆炸式增長,傳統的網絡爬蟲采集數據的方式已經逐漸顯示出劣勢。傳統的網絡爬蟲采集數據時任務沒有細粒度的切分,耗時比較長,服務器CPU、內存和網絡帶寬的限制,數據爬取效率比較低下,而且容易出現單點故障。因此,現有技術還有待于改進和發展。
技術實現思路
鑒于上述現有技術的不足,本專利技術的目的在于提供,旨在解決目前網絡爬蟲采集數據方法效率低,耗時長的問題。本專利技術的技術方案如下: 一種網絡爬蟲多任務執行和調度方法,其中,所述方法包括: A、根據不同的內容和網站特點,對待爬取內容進行細粒度切分并根據切分后內容分別制作各爬蟲解析模板文件,設置網絡爬蟲分別結合各爬蟲解析模板文件形成用于執行爬取任務的各采集模塊; B、多個節點服務器上分別部署所述網絡爬蟲,每個節點服務器分別設置有用于調度爬取任務的調度器; C、所述調度器按照預先定義的調度策略調用關聯的采集模塊執行爬取任務進行數據米集。所述的網絡爬蟲多任務執行和調度方法,其中,所述步驟A中根據不同的內容和網站特點,對待爬取內容進行細粒度切分具體為:當所述待爬取內容包括多個類型相同的網站時,將多個類型相同的網站切分為單個網站; 或者,當單個網站包含多個內容不同的版塊時,將單個網站切分為不同的版塊; 或者,當單一板塊中包含多個頁面時,將單一板塊切分為多個頁面。所述的網絡爬蟲多任務執行和調度方法,其中,所述切分后的內容之間無關聯性,所述各采集模塊分別對應關聯各爬取任務。所述的網絡爬蟲多任務執行和調度方法,其中,所述各爬取任務之間無 ...
【技術保護點】
一種網絡爬蟲多任務執行和調度方法,其特征在于,所述方法包括:A、根據不同的內容和網站特點,對待爬取內容進行細粒度切分并根據切分后內容分別制作各爬蟲解析模板文件,設置網絡爬蟲分別結合各爬蟲解析模板文件形成用于執行爬取任務的各采集模塊;B、多個節點服務器上分別部署所述網絡爬蟲,每個節點服務器分別設置有用于調度爬取任務的調度器;C、所述調度器按照預先定義的調度策略調用關聯的采集模塊執行爬取任務進行數據采集。
【技術特征摘要】
1.一種網絡爬蟲多任務執行和調度方法,其特征在于,所述方法包括: A、根據不同的內容和網站特點,對待爬取內容進行細粒度切分并根據切分后內容分別制作各爬蟲解析模板文件,設置網絡爬蟲分別結合各爬蟲解析模板文件形成用于執行爬取任務的各采集模塊; B、多個節點服務器上分別部署所述網絡爬蟲,每個節點服務器分別設置有用于調度爬取任務的調度器; C、所述調度器按照預先定義的調度策略調用關聯的采集模塊執行爬取任務進行數據米集。2.根據權利要求1所述的網絡爬蟲多任務執行和調度方法,其特征在于,所述步驟A中根據不同的內容和網站特點,對待爬取內容進行細粒度切分具體為: 當所述待爬取內容包括多個類型相同的網站時,將多個類型相同的網站切分為單個網站; 或者,當單個網站包含多個內容不同的版塊時,將單個網站切分為不同的版塊; 或者,當單一板塊中包含多個頁面時,將單一板塊切分為多個頁面。3.根據權利要求1所述的網絡爬蟲多任務執行和調度方法,其特征在于,所述切分后的內容之間無關聯性,所述各采集模塊分別對應關聯各爬取任務。4.根據權利要求3所述的網絡爬蟲多任務執行和調度方法,其特征在于,所述各爬取任務之間無關聯性,每一爬取任務通過一獨立線程完成。5.根據權利要求1所述的網絡爬蟲多任務執行和調度方法,其特征在于,所述預先定義的調度策略包括: 指定所述爬取任務在一固定的節點服務器上執行; 按照所述節點服務器節點等比原則在多個節點服務器中隨機分配爬取任務; 根據所述多個節點服務器當前的資源信息,優先選擇資源利用率低的節點服務器執行爬取任務。6.根據權利要求5所述的網絡爬蟲多任務執行和調度方法,其特征在于,所述預先定義的調度策略具體設置為: 預先設置并存儲一信息列表,所述信息列表中存儲有所述節點服務器的IP、端口信息...
【專利技術屬性】
技術研發人員:宋軻,劉世才,毛海濤,
申請(專利權)人:TCL集團股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。