• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    并行化分布式互聯網數據抓取方法及其系統技術方案

    技術編號:8347938 閱讀:254 留言:0更新日期:2013-02-21 01:26
    本發明專利技術提出一種并行化分布式互聯網數據抓取方法及系統,其中該方法包括步驟:設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。本發明專利技術的并行化分布式互聯網數據抓取方法及系統具有高質量高效率的優點。

    【技術實現步驟摘要】

    本專利技術涉及計算機應用
    和信息
    ,具體涉及一種并行化分布式互聯網數據抓取方法及其系統
    技術介紹
    現今,互聯網的發展日新月異,中國的網民數量也在呈爆發式增長。互聯網已逐步取代傳統的媒體(包括報紙、書籍、廣播、電視等等),變成人們獲取和發布信息的主要來源。同時,由于互聯網自由開放、使用簡單、傳播速度快、使用者眾多的特點,使得互聯網信息能夠迅速的傳播并造成影響。正是由于互聯網扮演的角色越來越重要,所以各種針對互聯網信息的研究也蓬勃發展起來。為了進行互聯網信息的研究,首先需要將海量的格式各異的互聯網網頁信息抓取處理,并進行統一的格式轉換,以方便后期分析處理;其次,需要應用高質量和高效率抓取技術。正是基于這一迫切需求,我們開發了并行化分布式互聯網數據抓取系統。
    技術實現思路
    本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。為此,本專利技術的一個目的在于提出一種具有高質高效的并行化分布式互聯網數據抓取方法及其系統。本專利技術的一方面提出一種并行化分布式互聯網數據抓取方法,包括設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。在本專利技術的方法的一個實施例中,還包括當抓取過程出現異常時,記錄日志信息,進行重試抓取,直至抓取成功。在本專利技術的方法的一個實施例中,所述數據抓取是以并行化分布式的模式進行。本專利技術的另一方面還提出一種并行化分布式互聯網數據抓取系統,包括配置模塊,所述配置模塊用于用戶設置目標網站的抓取配置信息;正文抓取模塊,根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;判斷模塊,所述判斷模塊用于判斷所述正文是否包含評論數據;以及評論抓取模塊,所述評論抓取模塊用于當所述正文包含評論數據時,進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。在本專利技術的系統的一個實施例中,還包括日志記錄模塊,所述日志記錄模塊用于當抓取過程出現異常時,記錄日志信息,此時所述并行化分布式互聯網數據抓取系統進行重試抓取,直至抓取成功。在本專利技術的系統的一個實施例中,所述數據抓取模塊為并行化分布式結構。綜上所述,首先,本專利技術提出了一個并行化分布式互聯網數據抓取方法和系統,它能夠通過配置的方式自由的擴展需要抓取的目標站點,并采用了并行化和分布式設計,使得數據抓取效率和實時性得到了很好的保證。其次,本專利技術采用了靈活判重和增量抓取機制,在無需二次查詢數據庫的前提下,只是針對本地網頁保存路徑的文件進行監測,就可以實現抓取網頁的判重和增量抓取,保證了所抓取數據的唯一性,節約了大量的軟硬件資源。再者,本專利技術還可以支持針對動態和靜態兩類網頁的統一抓取。因此,本專利技術的方法和系統具有高質量和高效率的優點。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中流程圖流程圖及圖I是本專利技術實施例的并行化分布式互聯網數據抓取方法的流程圖2是本專利技術實施例的并行化分布式互聯網數據抓取系統的結構框圖3是本專利技術實施例的并行化分布式互聯網數據抓取方法的正常情況下的詳細圖4是本專利技術實施例的并行化分布式互聯網數據抓取方法的異常情況下的詳細圖5是本專利技術實施例的并行化分布式特征的數據抓取模塊的布局結構示意圖;以圖6是本專利技術實施例的動靜態網頁統一抓取示意圖。具體實施例方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內”、“外”、“順時針”、“逆時針”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本專利技術的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本專利技術的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。在本專利技術中,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本專利技術中的具體含義。在本專利技術中,除非另有明確的規定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或僅僅表示第一特征水平高度小于第二特征。本專利技術屬于計算機應用
    和信息
    ,主要涉及基于深度優先爬取的定向網絡爬蟲的實現。網絡爬蟲是基于互聯網信息分析的基礎和前提,所有的分析操作都是在網絡爬蟲抓取海量互聯網數據的基礎上進行的。本專利技術專利的主要目的是為了解決海量互聯網數據的高效準確抓取,抓取數據靈活判重和增量抓取,動、靜態網頁的統一抓取等三方面的問題。由于基于互聯網數據分析的一個突出的要求是數據的時效性要高,而且互聯網數據量都是十分驚人的,所以為了保證互聯網數據的全面性,需要有一種可以高效準確的抓取海量互聯網數據的技術。為此我們開發了并行化分布式互聯網數據抓取系統。為了實現其并行化分布式的特點,實現了一種靈活高效率的抓取數據判重和增量抓取機制,保證抓取數據的唯一性和軟硬件資源的高利用率。由于現在存在于互聯網上的網頁的存在動態和靜態兩類網頁。因此,我們的抓取系統必須能夠同時支持對動態和靜態網頁的抓取,針對動態和靜態網頁,我們采取的是完全一致的抓取方法和流程,降低了程序的復雜性和后期維護的難度。本專利技術的一方面提出一種并行化分布式互聯網數據抓取方法,如圖I所示,包括SI.設置目標網站的抓取配置信息;S2.根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;S3.以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信本文檔來自技高網
    ...

    【技術保護點】
    一種并行化分布式互聯網數據抓取方法,其特征在于,包括步驟:設置目標網站的抓取配置信息;根據所述抓取配置信息,從目標網站的版面索引頁開始,逐一抓取所述版面索引頁上出現的正文的鏈接,并深入所述正文的鏈接爬取正文分頁信息和正文內容;以及判斷所述正文是否包含評論數據,如果包含,則進一步深入所述評論頁的鏈接爬取評論分頁信息和評論內容。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:楊睿塵
    申請(專利權)人:北京騰逸科技發展有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲人av高清无码| 少妇人妻无码精品视频| 无码任你躁久久久久久久| 精品少妇人妻av无码专区| 十八禁视频在线观看免费无码无遮挡骂过 | 亚洲精品无码av人在线观看| 久久久精品无码专区不卡| 久久久国产精品无码免费专区| 亚洲av中文无码乱人伦在线观看| 日韩精品无码Av一区二区| 狠狠躁天天躁中文字幕无码| 亚洲人成无码网站在线观看 | 精品人体无码一区二区三区 | 日韩精品无码久久一区二区三 | 黄色成人网站免费无码av| 国产做无码视频在线观看浪潮| 人妻少妇看A偷人无码精品 | 国产高清无码毛片| 色综合99久久久无码国产精品| 无码H肉动漫在线观看| 国产强伦姧在线观看无码| 亚洲av无码一区二区三区四区| 特级无码毛片免费视频尤物| 亚洲国产精品成人AV无码久久综合影院 | 国模无码人体一区二区| 无码色偷偷亚洲国内自拍| 无码欧精品亚洲日韩一区| 亚洲日韩激情无码一区| 亚洲av无码天堂一区二区三区| 成年轻人电影www无码| 亚洲中文字幕无码中文| AV无码免费永久在线观看| 久久午夜夜伦鲁鲁片免费无码 | 激情无码人妻又粗又大中国人| 国产亚洲AV无码AV男人的天堂| 中文字幕无码av激情不卡| 亚洲中文字幕伊人久久无码| 日韩人妻无码精品无码中文字幕| 国产精品无码一区二区在线| 成人毛片无码一区二区| 亚洲va中文字幕无码|