• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    信息抓取方法、裝置、中央控制節點設備及分布式系統制造方法及圖紙

    技術編號:15690877 閱讀:119 留言:0更新日期:2017-06-24 03:37
    本發明專利技術實施例提供的一種信息抓取方法、裝置、中央控制節點設備及分布式系統,中央控制節點設備可以獲得客戶端子節點設備上傳的當前抓取的網頁的網頁標識并存儲,在客戶端子節點設備的工作狀態為未正常抓取狀態時,將當前抓取的網頁的網頁標識返回給客戶端子節點設備,以使客戶端子節點設備根據網頁標識繼續對當前抓取的網頁進行抓取。由于爬蟲所在的客戶端子節點設備當前抓取的網頁的網頁標識被保存到了中央控制節點設備中,因此當爬蟲所在的客戶端子節點設備本地的爬取歷史消失時,本發明專利技術仍能控制爬蟲所在的客戶端子節點設備繼續對當前抓取的網頁進行抓取。本發明專利技術不會導致網頁的重復抓取,提高了爬蟲的網頁抓取效率,節省了大量的頁面瀏覽量。

    Information grabbing method, device, central control node device and distributed system

    A method of information extraction, the embodiment of the invention provides a device and a central control node device and distributed system, the central control node capture device can obtain the customer terminal node devices to upload web page ID and stored in the client terminal node equipment working state is not normal grasping state, will return to the web page identify the current crawl to the customer terminal node equipment to the customer terminal equipment according to the node on the current web page to the web crawlers to crawl. Because the client terminal node equipment crawler to crawl the web page the current logo is saved to a central control node device, so when the customer terminal node crawler crawling device of the local history disappear, the invention can still control the customer terminal node equipment is located to the crawler on the current web crawlers to crawl. The invention does not lead to repeated crawling of web pages, thereby improving crawler crawling efficiency and saving a large amount of page browsing.

    【技術實現步驟摘要】
    信息抓取方法、裝置、中央控制節點設備及分布式系統
    本專利技術涉及信息抓取
    ,特別是涉及信息抓取方法、裝置、中央控制節點設備及分布式系統。
    技術介紹
    以爬蟲為首的信息抓取技術可以從互聯網中抓取大量的有用信息,為各種決策、分析提供數據支持。爬蟲在抓取信息過程中會將爬取的網頁信息記錄到本地的爬取歷史中,當爬蟲由于某些不可控因素而消亡時,爬蟲首先重新啟動,然后讀取本地的爬取歷史,將待抓取列表中的已抓取過的網頁過濾掉,從而抓取新的網頁的信息。但是,當本地的爬取歷史消失時,爬蟲將無法讀取消失的爬取歷史中的數據,這就導致爬蟲需要重新對待抓取列表中的所有網頁進行抓取。由于待抓取列表中的很多網頁爬蟲已經抓取過,因此必然導致網頁的重復抓取,降低了爬蟲的網頁抓取效率,浪費了大量的頁面瀏覽量。
    技術實現思路
    本專利技術實施例的目的在于提供一種信息抓取方法、裝置、中央控制節點設備及分布式系統,以提高了爬蟲的網頁抓取效率,節省了大量的頁面瀏覽量。為達到上述目的,本專利技術實施例公開了一種信息抓取方法,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。可選的,所述客戶端子節點設備中保存有待抓取網頁列表,所述待抓取網頁列表中保存有所述客戶端子節點設備的待抓取網頁的網頁標識,所述獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲,包括:獲得所述客戶端子節點設備在按照預設的抓取順序對待抓取網頁列表中的網頁進行抓取時上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;所述在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取,包括:在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續按照預設的抓取順序從所述當前抓取的網頁開始對待抓取網頁列表中的網頁對進行抓取。可選的,還包括:對所述客戶端子節點設備中保存的待抓取網頁列表進行備份,在所述客戶端子節點設備中保存的待抓取網頁列表消失時,將與所述客戶端子節點設備的標識對應的待抓取網頁列表發送到所述客戶端子節點設備中。可選的,還包括:獲得所述客戶端子節點設備當前抓取的網頁中的統一資源定位符URL,將獲得的URL作為待抓取網頁的網頁標識放入所述待抓取網頁列表中。可選的,還包括:獲得并存儲所述客戶端子節點設備抓取的網頁數據。一種信息抓取裝置,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述裝置包括:標識獲得單元、狀態獲得單元和標識返回單元,所述標識獲得單元,用于獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;所述狀態獲得單元,用于獲得所述客戶端子節點設備的工作狀態;所述標識返回單元,用于在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。可選的,所述客戶端子節點設備中保存有待抓取網頁列表,所述待抓取網頁列表中保存有所述客戶端子節點設備的待抓取網頁的網頁標識,所述標識獲得單元,具體用于:獲得所述客戶端子節點設備在按照預設的抓取順序對待抓取網頁列表中的網頁進行抓取時上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;所述標識返回單元,具體用于:在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續按照預設的抓取順序從所述當前抓取的網頁開始對待抓取網頁列表中的網頁對進行抓取。可選的,還包括:備份單元,用于對所述客戶端子節點設備中保存的待抓取網頁列表進行備份,在所述客戶端子節點設備中保存的待抓取網頁列表消失時,將與所述客戶端子節點設備的標識對應的待抓取網頁列表發送到所述客戶端子節點設備中。可選的,還包括:列表添加單元,用于獲得所述客戶端子節點設備當前抓取的網頁中的統一資源定位符URL,將獲得的URL作為待抓取網頁的網頁標識放入所述待抓取網頁列表中。可選的,還包括:數據存儲單元,用于獲得并存儲所述客戶端子節點設備抓取的網頁數據。一種中央控制節點設備,包括任一種上述的信息抓取裝置。一種分布式系統,包括上述的中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接。相應地,本申請還提供了一種存儲介質,其中,該存儲介質用于存儲應用程序,所述應用程序用于在運行時執行本申請所述的一種信息抓取方法。其中,本申請所述的一種信息抓取方法,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。相應地,本申請還提供了一種應用程序,其中,該應用程序用于在運行時執行本申請所述的一種信息抓取方法。其中,本申請所述的一種信息抓取方法,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。相應地,本申請實施例還提供了一種中央控制節點設備,所述中央控制節點設備包括:處理器、存儲器、通信接口和總線;所述處理器、所述存儲器和所述通信接口通過所述總線連接并完成相互間的通信;所述存儲器存儲可執行程序代碼;所述處理器通過讀取所述存儲器中存儲的可執行程序代碼來運行與所述可執行程序代碼對應的程序,以用于:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所本文檔來自技高網...
    信息抓取方法、裝置、中央控制節點設備及分布式系統

    【技術保護點】
    一種信息抓取方法,其特征在于,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。

    【技術特征摘要】
    1.一種信息抓取方法,其特征在于,應用于分布式系統中的中央控制節點設備中,所述分布式系統包括所述中央控制節點設備和進行網頁抓取的客戶端子節點設備,所述中央控制節點設備與所述客戶端子節點設備通信連接,所述方法包括:獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;獲得所述客戶端子節點設備的工作狀態;在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取。2.根據權利要求1所述的方法,其特征在于,所述客戶端子節點設備中保存有待抓取網頁列表,所述待抓取網頁列表中保存有所述客戶端子節點設備的待抓取網頁的網頁標識,所述獲得所述客戶端子節點設備上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲,包括:獲得所述客戶端子節點設備在按照預設的抓取順序對待抓取網頁列表中的網頁進行抓取時上傳的當前抓取的網頁的網頁標識,將獲得的網頁標識進行存儲;所述在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續對所述當前抓取的網頁進行抓取,包括:在所述工作狀態為未正常抓取狀態時,將所述當前抓取的網頁的網頁標識返回給所述客戶端子節點設備,以使所述客戶端子節點設備根據所述網頁標識繼續按照預設的抓取順序從所述當前抓取的網頁開始對待抓取網頁列表中的網頁對進行抓取。3.根據權利要求2所述的方法,其特征在于,還包括:對所述客戶端子節點設備中保存的待抓取網頁列表進行備份,在所述客戶端子節點設備中保存的待抓取網頁列表消失時,將與所述客戶端子節點設備的標識對應的待抓取網頁列表發送到所述客戶端子節點設備中。4.根據權利要求2所述的方法,其特征在于,還包括:獲得所述客戶端子節點設備當前抓取的網頁中的統一資源定位符URL,將獲得的URL作為待抓取網頁的網頁標識放入所述待抓取網頁列表中。5.根據權利要求1至4中任一項所述的方法...

    【專利技術屬性】
    技術研發人員:林少維
    申請(專利權)人:北京金山安全軟件有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码一区二区三区 | 在线播放无码后入内射少妇| 精品无码国产一区二区三区麻豆 | 亚洲无码在线播放| 亚洲国产精品成人精品无码区在线 | 亚洲日韩v无码中文字幕| 精品无码久久久久国产| 亚洲av无码一区二区三区在线播放 | 亚洲aⅴ无码专区在线观看| 亚洲乱亚洲乱妇无码麻豆| 久久久无码精品人妻一区| 无码国产精成人午夜视频一区二区 | 日日摸日日踫夜夜爽无码| 一本之道高清无码视频| 亚洲成a∧人片在线观看无码| 久久久久亚洲Av片无码v| 久久精品无码一区二区三区日韩| 亚洲国产AV无码一区二区三区 | 久久亚洲AV成人无码软件| 久久无码一区二区三区少妇| 国产精品无码AV天天爽播放器| 久久久无码人妻精品无码| 日韩精品无码专区免费播放| 亚洲综合无码AV一区二区 | 亚洲国产成人精品无码区花野真一| 亚洲AV无码欧洲AV无码网站| 国产V亚洲V天堂无码久久久| 国产综合无码一区二区辣椒| 亚洲av无码成人精品区在线播放| 日韩视频无码日韩视频又2021| 无码中文人妻在线一区| 国产精品亚洲专区无码唯爱网| 亚洲aⅴ天堂av天堂无码麻豆| 亚洲中文字幕无码久久| 亚洲天堂2017无码中文| 亚洲综合一区无码精品| 秋霞鲁丝片无码av| 久久综合一区二区无码| 久久伊人中文无码| 无码人妻精品中文字幕免费 | 精品无码国产一区二区三区AV |