The invention discloses a method for realizing concurrent acquisition using cloud crawler, including crawler end and several cloud node server, crawler end can regularly check the cloud state, and select the cloud task send; real-time configuration synchronization according to the cloud state; according to the cloud has been downloaded Web pages, choose page through the local charge; the data cache and abnormal fault tolerant processing, ensure the webpage is not lost. The use of the cloud for concurrent collection crawler compared with the existing methods, by sending end batch download tasks, batch crawler for the download page, improve the transmission efficiency, the effect of crawler and cloud interaction bring to a minimum. Through the local and database records to download information, to achieve the download of the contents of the exception handling and transaction control, to ensure that the download task is carried out to reduce the traditional crawler prone to loss of web pages.
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機應(yīng)用
,具體地說是一種實用性強、利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法。
技術(shù)介紹
隨者互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)這個概念越來越受到人們的關(guān)注。企業(yè)可以通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)中的數(shù)據(jù),數(shù)據(jù)本身具有一定的商業(yè)價值,并且可以對海量數(shù)據(jù)進行深加工找出更有價值的數(shù)據(jù)分析結(jié)果,并通過分析結(jié)果提供決策支持,驅(qū)動企業(yè)的加速發(fā)展。數(shù)據(jù)的價值越來越受到人們的關(guān)注。但互聯(lián)網(wǎng)上的數(shù)據(jù),以指數(shù)級逐年增長,同時互聯(lián)網(wǎng)也會針對爬蟲做出限制,爬蟲節(jié)點較少時爬取能力有限,所以大量使用云服務(wù)器進行分布式爬取成為流行。基于此,現(xiàn)提供一種基于利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,使服務(wù)器上的爬蟲能夠?qū)⒕W(wǎng)頁下載任務(wù)分發(fā)至云節(jié)點實現(xiàn)大規(guī)模分布式并發(fā)采集。
技術(shù)實現(xiàn)思路
本專利技術(shù)的技術(shù)任務(wù)是針對以上不足之處,提供一種實用性強、利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法。本專利技術(shù)的一種利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,包括爬蟲端和若干云節(jié)點服務(wù)端,其實現(xiàn)過程為:1)爬蟲端通過云節(jié)點服務(wù)端進行采集,爬蟲端將采集任務(wù)批次發(fā)送到云節(jié)點服務(wù)端,通過校驗、請求處理實現(xiàn)云節(jié)點服務(wù)端任務(wù)分發(fā);2)云節(jié)點服務(wù)端進行狀態(tài)檢測,實時檢測云節(jié)點服務(wù)端的可用狀態(tài)以及任務(wù)隊列和下載隊列排隊情況,并根據(jù)云節(jié)點服務(wù)端情況選擇是否發(fā)送任務(wù)或者是否立刻收取網(wǎng)頁;3)爬蟲端將本地數(shù)據(jù)庫的配置同步至云節(jié)點服務(wù)端;4)云節(jié)點服務(wù)端網(wǎng)頁收取,爬蟲端向云節(jié)點服務(wù)端請求已經(jīng)下載的頁面,云節(jié)點服務(wù)端批量返回已經(jīng)下載的頁面;5)實現(xiàn)下載任務(wù)的異常容錯處理和事物控制,通過本地緩存和數(shù)據(jù)實現(xiàn)異常容錯處理,保證網(wǎng)頁不丟失。所述步驟1)的詳細(xì)過 ...
【技術(shù)保護點】
一種利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,其特征在于,包括爬蟲端和若干云節(jié)點服務(wù)端,其實現(xiàn)過程為:1)爬蟲端通過云節(jié)點服務(wù)端進行采集,爬蟲端將采集任務(wù)批次發(fā)送到云節(jié)點服務(wù)端,通過校驗、請求處理實現(xiàn)云節(jié)點服務(wù)端任務(wù)分發(fā);2)云節(jié)點服務(wù)端進行狀態(tài)檢測,實時檢測云節(jié)點服務(wù)端的可用狀態(tài)以及任務(wù)隊列和下載隊列排隊情況,并根據(jù)云節(jié)點服務(wù)端情況選擇是否發(fā)送任務(wù)或者是否立刻收取網(wǎng)頁;3)爬蟲端將本地數(shù)據(jù)庫的配置同步至云節(jié)點服務(wù)端;4)云節(jié)點服務(wù)端網(wǎng)頁收取,爬蟲端向云節(jié)點服務(wù)端請求已經(jīng)下載的頁面,云節(jié)點服務(wù)端批量返回已經(jīng)下載的頁面;5)爬蟲端實現(xiàn)下載任務(wù)的異常容錯處理和事物控制,通過本地緩存和數(shù)據(jù)實現(xiàn)異常容錯處理,保證網(wǎng)頁不丟失。
【技術(shù)特征摘要】
1.一種利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,其特征在于,包括爬蟲端和若干云節(jié)點服務(wù)端,其實現(xiàn)過程為:1)爬蟲端通過云節(jié)點服務(wù)端進行采集,爬蟲端將采集任務(wù)批次發(fā)送到云節(jié)點服務(wù)端,通過校驗、請求處理實現(xiàn)云節(jié)點服務(wù)端任務(wù)分發(fā);2)云節(jié)點服務(wù)端進行狀態(tài)檢測,實時檢測云節(jié)點服務(wù)端的可用狀態(tài)以及任務(wù)隊列和下載隊列排隊情況,并根據(jù)云節(jié)點服務(wù)端情況選擇是否發(fā)送任務(wù)或者是否立刻收取網(wǎng)頁;3)爬蟲端將本地數(shù)據(jù)庫的配置同步至云節(jié)點服務(wù)端;4)云節(jié)點服務(wù)端網(wǎng)頁收取,爬蟲端向云節(jié)點服務(wù)端請求已經(jīng)下載的頁面,云節(jié)點服務(wù)端批量返回已經(jīng)下載的頁面;5)爬蟲端實現(xiàn)下載任務(wù)的異常容錯處理和事物控制,通過本地緩存和數(shù)據(jù)實現(xiàn)異常容錯處理,保證網(wǎng)頁不丟失。2.根據(jù)權(quán)利要求1所述的一種利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,其特征在于,所述步驟1)的詳細(xì)過程為:爬蟲端從下載任務(wù)的生產(chǎn)者中接收下載任務(wù),該生產(chǎn)者是數(shù)據(jù)庫中的待下載數(shù)據(jù)或者消息隊列中的待下載數(shù)據(jù);爬蟲端定時同步現(xiàn)有任務(wù)配置至云節(jié)點服務(wù)端,云節(jié)點服務(wù)端根據(jù)規(guī)則進行間隔下載;爬蟲端定時檢查所有云節(jié)點服務(wù)端狀態(tài),選擇可用同時任務(wù)排隊數(shù)小于排隊閾值的云節(jié)點服務(wù)端;爬蟲端將任務(wù)均勻的發(fā)送至云節(jié)點服務(wù)端,并且記錄發(fā)送信息備份到本地緩存以及數(shù)據(jù)庫中。3.根據(jù)權(quán)利要求2所述的一種利用云端進行并發(fā)采集的爬蟲實現(xiàn)方法,其特征在于,爬蟲端定時檢查云節(jié)點服務(wù)端的狀態(tài)是指通過tcp或http方式進行數(shù)據(jù)查看,查看云端的可用狀態(tài)、已有任務(wù)配置數(shù)、待下載任務(wù)排隊數(shù)、已下載網(wǎng)頁數(shù),并將狀態(tài)等數(shù)值緩存到本地。4.根據(jù)權(quán)利要求1所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王洪添,張裕超,
申請(專利權(quán))人:山東浪潮云服務(wù)信息科技有限公司,
類型:發(fā)明
國別省市:山東;37
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。