一種分布式垂直爬蟲服務系統(tǒng)的優(yōu)化方法技術(shù)方案

技術(shù)編號：12738793 閱讀：171 留言：0更新日期：2016-01-20 23:47

本發(fā)明專利技術(shù)的目的在于提供一種分布式垂直爬蟲服務系統(tǒng)的優(yōu)化方法，該方法將原有的爬蟲服務系統(tǒng)拆分為下載服務和頁面分析邏輯兩部分，且將該下載服務和分析邏輯均部署在多個云主機上，任務隊列也拆分為下載任務隊列和分析任務隊列。本發(fā)明專利技術(shù)方法優(yōu)化的爬蟲服務系統(tǒng)能夠提升垂直爬蟲在處理大量數(shù)據(jù)信息時的效率，增強對對采用了延遲加載的動態(tài)HTML頁面的抓取能力，對于頁面下載邏輯和分析處理邏輯進行有效地管理和擴展，對網(wǎng)站主的爬蟲防御策略提供有效地規(guī)避。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及網(wǎng)絡數(shù)據(jù)傳輸方法，具體來說涉及。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的發(fā)展，互聯(lián)網(wǎng)中包含的信息內(nèi)容越來越多，搜索引擎可以幫助人們在海量信息中尋找自己感興趣的內(nèi)容，一般的搜索引擎，如百度、Google和Bing等，都是面向所有用戶提供互聯(lián)網(wǎng)內(nèi)容搜索服務。這些搜索引擎需要通過爬蟲技術(shù)不斷地從互聯(lián)網(wǎng)上獲取信息，并將這些信息保存起來，以便人們方便地檢索這些信息。由于需要爬取的數(shù)據(jù)量巨大，因此大規(guī)模的搜索引擎往往采取分布式處理機制，即建立分布式爬蟲服務系統(tǒng)。這些爬蟲從統(tǒng)一的下載隊列中獲取目標URL，然后將目標網(wǎng)頁下載存儲到指定的位置。搜索引擎越來越多，這些搜索引擎的爬蟲不斷地獲取網(wǎng)站的內(nèi)容，網(wǎng)站系統(tǒng)的壓力越來越大，1994年6月30日，在經(jīng)過搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長共同討論后，正式發(fā)布了一份行業(yè)規(guī)范，即Robots協(xié)議。Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclus1n Protocol)，網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。由于人們在信息檢索時都帶有明確的目標，而一般的搜索引擎返回的信息過于繁雜，甚至有些不相干的信息也被檢索出來，人們希望搜索引擎可以針對某個特定領域提供信息檢索服務，同時還希望搜索引擎能夠?qū)z索出的內(nèi)容做一些基本的分析處理，垂直搜索引擎便應運而生。垂直搜索引擎往往只面向特定領域，如去哪網(wǎng)僅面向在線旅游領域，因此它所爬取的內(nèi)容不必覆蓋整個互聯(lián)網(wǎng)，而僅僅是特定領域的網(wǎng)站即可。但他需要對這些網(wǎng)站內(nèi)容進行簡單的處理，如格式轉(zhuǎn)換或按排序某些...

【技術(shù)保護點】
一種分布式垂直爬蟲服務系統(tǒng)的優(yōu)化方法，其特征在于：將原有的爬蟲服務系統(tǒng)拆分為下載服務和頁面分析邏輯兩部分，且將該下載服務和分析邏輯均部署在多個云主機上，任務隊列也拆分為下載任務隊列和分析任務隊列。

【技術(shù)特征摘要】

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：閆峰，李桂兵，魏繼超，
申請(專利權(quán))人：廣州極數(shù)寶數(shù)據(jù)服務有限公司，
類型：發(fā)明
國別省市：廣東;44

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

暫無相關(guān)專利

網(wǎng)友詢問留言已有0條評論