A method of information extraction, the embodiment of the invention provides a device and a central control node device and distributed system, the central control node capture device can obtain the customer terminal node devices to upload web page ID and stored in the client terminal node equipment working state is not normal grasping state, will return to the web page identify the current crawl to the customer terminal node equipment to the customer terminal equipment according to the node on the current web page to the web crawlers to crawl. Because the client terminal node equipment crawler to crawl the web page the current logo is saved to a central control node device, so when the customer terminal node crawler crawling device of the local history disappear, the invention can still control the customer terminal node equipment is located to the crawler on the current web crawlers to crawl. The invention does not lead to repeated crawling of web pages, thereby improving crawler crawling efficiency and saving a large amount of page browsing.
【技術實現步驟摘要】
信息抓取方法、裝置、中央控制節點設備及分布式系統
本專利技術涉及信息抓取
,特別是涉及信息抓取方法、裝置、中央控制節點設備及分布式系統。
技術介紹
以爬蟲為首的信息抓取技術可以從互聯網中抓取大量的有用信息,為各種決策、分析提供數據支持。爬蟲在抓取信息過程中會將爬取的網頁信息記錄到本地的爬取歷史中,當爬蟲由于某些不可控因素而消亡時,爬蟲首先重新啟動,然后讀取本地的爬取歷史,將待抓取列表中的已抓取過的網頁過濾掉,從而抓取新的網頁的信息。但是,當本地的爬取歷史消失時,爬蟲將無法讀取消失的爬取歷史中的數據,這就導致爬蟲需要重新對待抓取列表中的所有網頁進行抓取。由于待抓取列表中的很多網頁爬蟲已經抓取過,因此必然導致網頁的重復抓取,降低了爬蟲的網頁抓取效率,浪費了大量的頁面瀏覽量。
技術實現思路
本專利技術實施例的目的在于提供一種信息抓取方法、裝置、中央控制節點設備及分布式系統,以提高了爬蟲的網頁抓取效率,節省了大量的頁面瀏覽量。為達到上述目的,本專利技術實施例公開了一種信息抓取方法,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。可選的,所述客戶端子節點設備 ...
【技術保護點】
一種信息抓取方法,其特征在于,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。
【技術特征摘要】
1.一種信息抓取方法,其特征在于,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。2.根據權利要求1所述的方法,其特征在于,所述客戶端子節點設備中保存有待抓取網頁列表,所述待抓取網頁列表中保存有所述客戶端子節點設備的待抓取網頁的網頁標識,所述獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲,包括:獲得所述客戶端子節點設備在按照預設的抓取順序對待抓取網頁列表中的網頁進行抓取時上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;所述在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取,包括:在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續按照預設的抓取順序從所述當前抓取的網頁開始對待抓取網頁列表中的網頁對進行抓取。3.根據權利要求2所述的方法,其特征在于,還包括:對所述客戶端子節點設備中保存的待抓取網頁列表進行備份,在所述客戶端子節點設備中保存的待抓取網頁列表消失時,將與所述客戶端子節點設備的標識對應的待抓取網頁列表發送到所述客戶端子節點設備中。4.根據權利要求2所述的方法,其特征在于,還包括:獲得所述客戶端子節點設備當前抓取的網頁中的統一資源定位符URL,將獲得的URL作為待抓取網頁的網頁標識放入所述待抓取網頁列表中。5.根據權利要求1至4中任一項所述的方法...
【專利技術屬性】
技術研發人員:林少維,
申請(專利權)人:北京金山安全軟件有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。