當(dāng)前位置: 首頁 > 專利查詢>青島海洋科學(xué)與技術(shù)國家實驗室發(fā)展中心專利>正文

基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法技術(shù)方案

技術(shù)編號：24331355 閱讀：39 留言：0更新日期：2020-05-29 19:43

本發(fā)明專利技術(shù)公開了一種基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法，包括：爬蟲隊列模塊和爬蟲執(zhí)行模塊；爬蟲隊列模塊包括爬蟲種子隊列、爬蟲種子處理單元和爬蟲任務(wù)隊列；爬蟲種子隊列用于存儲爬蟲任務(wù)；爬蟲種子處理單元用于對爬蟲種子隊列中的爬蟲任務(wù)進行去重篩選處理，并將去重篩選后的爬蟲任務(wù)存儲入爬蟲任務(wù)隊列；爬蟲執(zhí)行模塊包括網(wǎng)頁下載單元和URL挖掘單元；網(wǎng)頁下載單元用于從爬蟲任務(wù)隊列中讀取當(dāng)前需要執(zhí)行的爬蟲任務(wù)，基于讀取到的爬蟲任務(wù)下載網(wǎng)頁；URL挖掘單元用于在下載到的網(wǎng)頁中提取到新的URL鏈接作為新的爬蟲任務(wù)存入爬蟲種子隊列；實現(xiàn)對特定領(lǐng)域網(wǎng)站域名的深度挖掘，提升了系統(tǒng)的爬取廣度。

Data acquisition system and method based on the framework of crawler

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】
基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
本專利技術(shù)屬于數(shù)據(jù)采集
，具體地說，是涉及一種基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法。
技術(shù)介紹
信息網(wǎng)絡(luò)技術(shù)的快速發(fā)展，帶來了網(wǎng)絡(luò)信息量的指數(shù)性增長。在網(wǎng)絡(luò)信息資源充足的條件下，為了快速、針對性獲取相關(guān)網(wǎng)絡(luò)信息，促使了搜索引擎的誕生。搜索引擎，是指運用特定的計算機程序按照一定的策略自動從因特網(wǎng)上搜集信息，對信息進行組織和處理以后，提供給用戶檢索服務(wù)。搜索引擎從因特網(wǎng)上搜集信息的過程，依賴于網(wǎng)絡(luò)蜘蛛對相關(guān)網(wǎng)站信息的爬取。網(wǎng)絡(luò)蜘蛛是一種自動瀏覽網(wǎng)絡(luò)，分析網(wǎng)頁內(nèi)容的程序，是搜索引擎的重要組成部分。Scrapy是目前最主流的爬蟲框架，它是基于twisted（用Python實現(xiàn)的基于事件驅(qū)動的網(wǎng)絡(luò)引擎框架）異步網(wǎng)絡(luò)庫實現(xiàn)的，在爬取速度上相對其他爬蟲是高效的，且具有可定制性。由于網(wǎng)絡(luò)爬蟲對I/O的要求較高，Scrapy將待爬取的URLs直接存儲在內(nèi)存中而非硬盤中，這樣一來，在爬取網(wǎng)頁過程中，當(dāng)爬取的網(wǎng)頁數(shù)量達到數(shù)萬時，需要存儲的URLs數(shù)量可能會超過百萬甚至千萬，再加上Python（一種解釋型、面向?qū)ο蟆討B(tài)數(shù)據(jù)類型的高級程序設(shè)計語言）本身是腳本語言，其對象占用內(nèi)存往往比C/C++等編譯型語言要大得多，而且Python垃圾收集器的釋放內(nèi)存算法并不會在對象不再被引用時立即釋放內(nèi)存。因此，很可能會導(dǎo)致單機內(nèi)存枯竭，造成爬取速度變慢。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于提供一種基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法，克服現(xiàn)有爬蟲框架數(shù)...

【技術(shù)保護點】
1.一種基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，包括：/n爬蟲隊列模塊，包括爬蟲種子隊列、爬蟲種子處理單元和爬蟲任務(wù)隊列；所述爬蟲種子隊列，用于存儲爬蟲任務(wù)；所述爬蟲種子處理單元，用于對爬蟲種子隊列中的爬蟲任務(wù)進行去重篩選處理，并將去重篩選后的爬蟲任務(wù)存儲入爬蟲任務(wù)隊列；/n爬蟲執(zhí)行模塊，包括網(wǎng)頁下載單元和URL挖掘單元；所述網(wǎng)頁下載單元，用于從爬蟲任務(wù)隊列中讀取當(dāng)前需要執(zhí)行的爬蟲任務(wù)，基于讀取到的爬蟲任務(wù)下載網(wǎng)頁；所述URL挖掘單元，用于在下載到的網(wǎng)頁中提取到新的URL鏈接作為新的爬蟲任務(wù)存入所述爬蟲種子隊列。/n

【技術(shù)特征摘要】
1.一種基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，包括：
爬蟲隊列模塊，包括爬蟲種子隊列、爬蟲種子處理單元和爬蟲任務(wù)隊列；所述爬蟲種子隊列，用于存儲爬蟲任務(wù)；所述爬蟲種子處理單元，用于對爬蟲種子隊列中的爬蟲任務(wù)進行去重篩選處理，并將去重篩選后的爬蟲任務(wù)存儲入爬蟲任務(wù)隊列；
爬蟲執(zhí)行模塊，包括網(wǎng)頁下載單元和URL挖掘單元；所述網(wǎng)頁下載單元，用于從爬蟲任務(wù)隊列中讀取當(dāng)前需要執(zhí)行的爬蟲任務(wù)，基于讀取到的爬蟲任務(wù)下載網(wǎng)頁；所述URL挖掘單元，用于在下載到的網(wǎng)頁中提取到新的URL鏈接作為新的爬蟲任務(wù)存入所述爬蟲種子隊列。

2.根據(jù)權(quán)利要求1所述的基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，所述系統(tǒng)還包括：
任務(wù)調(diào)度模塊，包括爬蟲進程隊列和進程管理器；
其中，所述進程管理器，用于根據(jù)控制信息和爬蟲任務(wù)隊列信息創(chuàng)建爬蟲進程，將創(chuàng)建的爬蟲進程加入所述爬蟲進程隊列并進行管理，以及控制所述網(wǎng)頁下載單元下載網(wǎng)頁；所述爬蟲進程隊列，用于存儲當(dāng)前正在執(zhí)行、暫時掛起和已經(jīng)結(jié)束的爬蟲進程。

3.根據(jù)權(quán)利要求1所述的基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，所述系統(tǒng)還包括：
Kafka消息庫，用于存儲所述爬蟲種子隊列。

4.根據(jù)權(quán)利要求1所述的基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，所述系統(tǒng)還包括：
Redis數(shù)據(jù)庫，用于存儲所述爬蟲任務(wù)隊列。

5.根據(jù)權(quán)利要求1所述的基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，所述系統(tǒng)還包括：
MongoDB數(shù)據(jù)庫，用于存儲所述網(wǎng)頁下載單元下載的網(wǎng)頁內(nèi)容。

6.根據(jù)權(quán)利要求1所述的基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)，其特征在于，所述爬蟲種子處理單元包括：
去重...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：魏志強，賈東寧，聶為之，劉安安，蘇育挺，
申請(專利權(quán))人：青島海洋科學(xué)與技術(shù)國家實驗室發(fā)展中心，
類型：發(fā)明
國別省市：山東;37

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)