本發(fā)明專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置。其中,方法包括:接收功能組件的拖拽指令和配置指令,根據(jù)拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;根據(jù)有向無環(huán)圖和各功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;將網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。本發(fā)明專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,通過有向無環(huán)圖描述互聯(lián)網(wǎng)數(shù)據(jù)采集邏輯,通過流程引擎生成網(wǎng)絡(luò)爬蟲的代碼,通過客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集,不需要進(jìn)行Python編程,爬蟲定義過程無代碼、界面更友好,能降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,能擴大互聯(lián)網(wǎng)數(shù)據(jù)采集方法適用范圍,更簡單、方便。
Internet data collection method and device
【技術(shù)實現(xiàn)步驟摘要】
互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置
本專利技術(shù)涉及計算機
,更具體地,涉及一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置。
技術(shù)介紹
互聯(lián)網(wǎng)數(shù)據(jù)采集,是基于HTTP技術(shù),模擬瀏覽器請求等操作,采集網(wǎng)絡(luò)上公開發(fā)布的網(wǎng)頁、圖片等資源,解決人工采集工作量大的問題的技術(shù)。常用的互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)包括網(wǎng)絡(luò)爬蟲。Scrapy網(wǎng)絡(luò)爬蟲框架是一種開源Python網(wǎng)絡(luò)爬蟲框架,封裝了一系列用于網(wǎng)絡(luò)請求、文檔解析過程,簡化爬蟲開發(fā),用于采集網(wǎng)絡(luò)中非結(jié)構(gòu)化數(shù)據(jù)。開發(fā)過程使用流水線方式,適合進(jìn)行邏輯編排。目前,基于Scrapy網(wǎng)絡(luò)爬蟲框架進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集時,需要根據(jù)采集任務(wù)編寫Python腳本,實現(xiàn)Scrapy采集邏輯。現(xiàn)有方法步驟比較復(fù)雜,需要專業(yè)人員編寫Python腳本,門檻較高。
技術(shù)實現(xiàn)思路
本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,用以解決或者至少部分地解決現(xiàn)有技術(shù)存在的復(fù)雜、不方便的缺陷。第一方面,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,包括:接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。優(yōu)選地,所述接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖的具體步驟包括:接收所述拖拽指令,根據(jù)所述拖拽指令,將功能組件拖拽到畫布上,作為節(jié)點;接收連接指令,根據(jù)所述連接指令連接相應(yīng)的節(jié)點,獲得待配置的有向無環(huán)圖;接收所述配置指令,根據(jù)所述配置指令,對各所述節(jié)點進(jìn)行配置,獲得所述有向無環(huán)圖。優(yōu)選地,所述獲得所述有向無環(huán)圖之后,還包括:將所述有向無環(huán)圖保存為XML文件。優(yōu)選地,所述根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼的具體步驟包括:根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù);根據(jù)所述執(zhí)行計劃、所述各配置參數(shù)和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼。優(yōu)選地,所述根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)的具體步驟包括:對所述XML文件進(jìn)行解析,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)。優(yōu)選地,所述對所述XML文件進(jìn)行解析的具體步驟包括:提取所述XML文件中的mxCell元素,將每個所述mxCell元素分別構(gòu)造為ExecuteNode或Edge對象,得到ExecuteNode集合與Edge集合;根據(jù)所述ExecuteNode集合與Edge集合,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)。優(yōu)選地,所述接收功能組件的拖拽指令和配置指令之前,還包括:定義各所述功能組件。第二方面,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集裝置,包括:采集編輯模塊,用于接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;流程處理模塊,用于根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;作業(yè)執(zhí)行模塊,用于將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。第三方面,本專利技術(shù)實施例提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,執(zhí)行所述程序時實現(xiàn)如第一方面的各種可能的實現(xiàn)方式中任一種可能的實現(xiàn)方式所提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的步驟。第四方面,本專利技術(shù)實施例提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面的各種可能的實現(xiàn)方式中任一種可能的實現(xiàn)方式所提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的步驟。本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,通過有向無環(huán)圖描述互聯(lián)網(wǎng)數(shù)據(jù)采集邏輯,流程定義后通過流程引擎生成網(wǎng)絡(luò)爬蟲的代碼,通過客戶端執(zhí)行網(wǎng)絡(luò)爬蟲的代碼實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集,不需要用戶進(jìn)行Python編程,爬蟲定義過程無代碼、界面更友好,能降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,能擴大互聯(lián)網(wǎng)數(shù)據(jù)采集方法適用范圍,更簡單、方便。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的流程示意圖;圖2為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法中解析XML文件的流程示意圖;圖3為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖;圖4為根據(jù)本專利技術(shù)實施例提供的電子設(shè)備的實體結(jié)構(gòu)示意圖。具體實施方式為使本專利技術(shù)實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本專利技術(shù)實施例中的附圖,對本專利技術(shù)實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本專利技術(shù)一部分實施例,而不是全部的實施例。基于本專利技術(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護(hù)的范圍。為了克服現(xiàn)有技術(shù)的上述問題,本專利技術(shù)實施例提供一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法及裝置,其專利技術(shù)構(gòu)思是,以一種無代碼、界面友好的方式實現(xiàn)爬蟲定義,降低互聯(lián)網(wǎng)數(shù)據(jù)采集門檻,更簡單、方便。圖1為根據(jù)本專利技術(shù)實施例提供的互聯(lián)網(wǎng)數(shù)據(jù)采集方法的流程示意圖。如圖1所示,該方法包括:步驟S101、接收功能組件的拖拽指令和配置指令,根據(jù)拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖。具體地,將互聯(lián)網(wǎng)數(shù)據(jù)采集過程拆解為可解耦的通用邏輯模塊(即功能組件),在畫布上以塊元素展示,使用GUI(圖形用戶界面,GraphicalUserInterface)塊元素拖拽,在畫布上對功能組件進(jìn)行編排連接,構(gòu)建一個描述采集過程的有向無環(huán)圖(DAG,Directedacyclicgraph)。拖拽指令和配置指令,可以基于瀏覽器進(jìn)行輸入。功能組件,用于實現(xiàn)某一功能,例如賦值、存儲、Html解析和采集等。用戶根據(jù)當(dāng)前數(shù)據(jù)采集任務(wù),輸入相應(yīng)的拖拽指令。拖拽指令,用于將某一功能組件拖拽到畫布中的某個位置。可以理解的是,由于互聯(lián)網(wǎng)數(shù)據(jù)采集的過程比較復(fù)雜,需要多個功能組件,因而步驟S101中接收多條拖拽指令。需要說明的是,由于互聯(lián)網(wǎng)數(shù)據(jù)采集的過程比較復(fù)雜,同一個功能組件可能被拖拽多次。對于被拖拽到畫布中的每一功能組件,用戶根據(jù)當(dāng)前數(shù)據(jù)采集任務(wù),輸入相應(yīng)的配置指令。配置指令,用于對功能組件的動態(tài)參數(shù)進(jìn)行配置。完成拖拽和配置之后,可以得到有向無環(huán)圖。有向無環(huán)圖指的是一個無回路的有向圖。有向無環(huán)圖中的節(jié)點,為功能組件。有本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,包括:/n接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;/n根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;/n將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。/n
【技術(shù)特征摘要】
1.一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,包括:
接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖;
根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼;
將所述網(wǎng)絡(luò)爬蟲的代碼發(fā)送至客戶端,以使得所述客戶端執(zhí)行所述網(wǎng)絡(luò)爬蟲的代碼,進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)采集。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述接收功能組件的拖拽指令和配置指令,根據(jù)所述拖拽指令和配置指令,生成用于描述數(shù)據(jù)采集過程的有向無環(huán)圖的具體步驟包括:
接收所述拖拽指令,根據(jù)所述拖拽指令,將功能組件拖拽到畫布上,作為節(jié)點;
接收連接指令,根據(jù)所述連接指令連接相應(yīng)的節(jié)點,獲得待配置的有向無環(huán)圖;
接收所述配置指令,根據(jù)所述配置指令,對各所述節(jié)點進(jìn)行配置,獲得所述有向無環(huán)圖。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述獲得所述有向無環(huán)圖之后,還包括:
將所述有向無環(huán)圖保存為XML文件。
4.根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述有向無環(huán)圖和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼的具體步驟包括:
根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù);
根據(jù)所述執(zhí)行計劃、所述各配置參數(shù)和各所述功能組件對應(yīng)的腳本模板,生成網(wǎng)絡(luò)爬蟲的代碼。
5.根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述有向無環(huán)圖,獲取所述數(shù)據(jù)采集過程對應(yīng)的執(zhí)行計劃和各配置參數(shù)的具體步驟包括:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉睿,黃踐焜,
申請(專利權(quán))人:北京天元創(chuàng)新科技有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。