本發明專利技術提供了一種網絡數據解析方法與裝置,用以解決現有技術中網絡數據的解析技術存在解析效率低、成本過高的問題。該方法包括:根據網頁的XPATH路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則;對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;根據解析規則和查找到的關鍵字的當前路徑,定位所要解析的網絡數據的位置;根據所定位的所要解析的網絡數據的位置提取出所要解析的網絡數據。采用本發明專利技術的技術方案,有助于提高網絡數據解析的效率和降低成本。
【技術實現步驟摘要】
本專利技術涉及電子信息領域,尤其涉及一種網絡數據解析方法與裝置。
技術介紹
隨著互聯網的廣泛普及,使對網絡數據的應用需求愈來愈大,這就特別需要一個能正確解析出其內容并轉成統一格式的工具。這個工具的關鍵技術就在數據解析上。目前對網絡數據的解析技術,特別是對半結構化網頁格式的網絡數據的解析技術,主要使用的方法是使用正則表達式匹配關鍵字提取相關內容。但這種技術在實際應用過程中存在一些不足的地方,由于該技術過分依賴于網頁中關鍵字及HTML(Hyper TextMark-up Language,超文本標記語言標簽),需要將整個網頁進行掃描,同時網頁的頁面改·動對現在規則影響較大。每次的網頁改動都需要開發人員去分析網頁,然后重寫編寫新的匹配規則,再測試,再發布使用,因此該方式造成解析效率低、不靈活、成本過高。在現有技術中,對網絡數據的解析技術存在解析效率低、成本過高的問題,對于該問題,目如尚未提出有效解決方案。
技術實現思路
本專利技術的主要目的是提供一種網絡數據解析方法與裝置,以解決現有技術中網絡數據的解析技術存在解析效率低、成本過高的問題。為了實現上述目的,根據本專利技術的一個方面,提供了一種網絡數據解析方法。本專利技術的網絡數據解析方法包括根據網頁的XPATH(XML路徑語言)路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則;對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;根據解析規則和查找到的關鍵字的當前路徑,定位所要解析的網絡數據的位置;根據所定位的所要解析的網絡數據的位置提取出所要解析的網絡數據。進一步地,對所要解析的網絡數據對應的關鍵字進行匹配之前還包括先匹配出所要解析的網絡數據所在的區域關鍵字;通過區域關鍵字找到所要解析的網絡數據所在的區塊。進一步地,對于所要解析的網絡數據所在節點包含關鍵字的解析業務,解析出所要解析的網絡數據之前還包括根據所要解析的網絡數據在其所在節點中的位置和/或該網絡數據的內容,制定所要解析的網絡數據的提取規則。進一步地,生成該網頁中網絡數據的解析規則之前還包括根據網頁中的DOM(DocumentObject Model,文檔對象模型)結構,生成該網頁的XPATH路徑。根據本專利技術的另一方面,提供了一種網絡數據解析裝置。本專利技術的網絡數據解析裝置包括解析規則生成模塊,用于根據網頁的XPATH路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則;關鍵字匹配模塊,用于對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;定位模塊,用于根據解析規則和查找到的關鍵字的當前路徑,定位所要解析的網絡數據的位置;提取模塊,用于根據所定位的所要解析的網絡數據的位置提取出所要解析的網絡數據。進一步地,裝置還包括區域匹配模塊,用于對所要解析的網絡數據對應的關鍵字進行匹配之前,先匹配出所要解析的網絡數據所在的區域關鍵字;查找模塊,用于通過區域關鍵字找到所要解析的網絡數據所在的區塊。進一步地,裝置還包括提取規則制定模塊,用于對于所要解析的網絡數據所在節點包含關鍵字的解析業務,解析出所要解析的網絡數據之前,根據所要解析的網絡數據在其所在節點中的位置和/或該網絡數據的內容,制定所要解析的網絡數據的提取規則。進一步地,裝置還包括路徑生成模塊,用于根據網頁中的DOM結構,生成該網頁 的XPATH路徑。根據本專利技術的技術方案,通過設置解析項與其對應的關鍵字的相對位置有關的解析規則,并且通過關鍵字匹配的方式定位關鍵字的當前動態路徑,大大提高了解析的效率,降低了人力和維護成本。附圖說明說明書附圖用來提供對本專利技術的進一步理解,構成本申請的一部分,本專利技術的示意性實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中圖I是根據本專利技術實施例的網絡數據解析方法的主要步驟的流程圖;圖2是本專利技術實施例的網絡數據解析方法要解析的第一種網頁內容的截圖;圖3是圖2的XPATH路徑截圖;圖4是本專利技術實施例的網絡數據解析方法要解析的第二種網頁內容的截圖;圖5是本專利技術實施例的網絡數據解析方法要解析的第三種網頁內容的截圖;圖6是對圖4中的網絡數據提取結果后的截圖;圖7是本專利技術實施例的網絡數據解析方法要解析的第四種網頁內容的截圖;以及圖8是根據本專利技術實施例的網絡數據解析裝置的主要模塊的示意圖。具體實施例方式需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本專利技術。圖I是根據本專利技術實施例的網絡數據解析方法的主要步驟的流程圖。如圖I所示,本專利技術的網絡數據解析方法主要包括如下步驟步驟SlOl :根據網頁中的DOM結構,生成該網頁的XPATH路徑。對于該步驟,以圖2和圖3進行示例說明。圖2是本專利技術實施例的網絡數據解析方法要解析的第一種網頁內容的截圖20。如圖2所示,該截圖20示出了的網頁內容為半結構化網頁格式的簡歷。該圖共包括以下基本概念區域節點即能代表一個區塊的節點,圖2中為第4,10行的信息“個人簡歷,企業信息”。關鍵節點即關鍵字節點,圖2中為第5,7,11,13行的信息“姓名,性別,企業名稱,規模100人以上”。內容節點即要解析的項。圖2中為第6,8,12,13行的信息“張三,男,某某公司,規模100人以上”。圖3是圖2的XPATH路徑截圖30。該截圖30是基于分析圖2網頁中的DOM結構即各節點生成的。步驟S103 :根據步驟SlOl中網頁的XPATH路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則。在截圖30中,可以看出 姓名XPATH = /html [I] /body [I] /div [2]張三XPATH = /html [I]/body [I]/div [3]則解析項“姓名值”的解析規則是 姓名值XPATH的相對位置=姓名XPATH+向下加I通過上述方法同樣求得其他解析項的解析規則。由于該解析規則只與位置有關,大大提高了解析的效率和準確性。步驟S105 :對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當i U路徑。因為要想提取解析項中的網絡數據,就要找到該解析項的位置,而由步驟S103制定的解析規則可知,要找到解析項的位置,就要查找到解析項對應的關鍵字的路徑。在實際操作過程中關鍵字的XPATH路徑不可能是不變的,會因為各種原因XPATH路徑不相同。但是關鍵字是不變的,可枚舉的。所以基于這個特性,我們可以使用關鍵字匹配找到“關鍵字”當前所在的XPATH路徑,該方法對網頁結構變化的動態網頁更能體現其操作的靈活性。圖4是本專利技術實施例的網絡數據解析方法要解析的第二種網頁內容的截圖40,截圖40示出了其為一動態網頁,該網頁結構中第5行插入了廣告信息。這個時候此節點以下的所有節點的XPATH位置全部都變化了。若要查找截圖40中關鍵字“姓名”的路徑,就可以通過關鍵字匹配找到“姓名”當前的動態路徑為 /html [I]/body [I]/div [3]。 圖5是本專利技術實施例的網絡數據解析方法要解析的第三種網頁內容的截圖50。截圖50示出了在同一個網頁內出現了兩個相同的關鍵字,這是由于網頁內容的多樣性,甚至往往會在同一個網頁內出現多個相同的關本文檔來自技高網...
【技術保護點】
一種網絡數據解析方法,其特征在于,包括:根據網頁的XPATH路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則;對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;根據所述解析規則和查找到的所述關鍵字的當前路徑,定位所述所要解析的網絡數據的位置;根據所定位的所述所要解析的網絡數據的位置提取出所述所要解析的網絡數據。
【技術特征摘要】
1.一種網絡數據解析方法,其特征在于,包括 根據網頁的XPATH路徑中的網絡數據路徑與其對應的關鍵字路徑的相對位置關系,生成該網頁中網絡數據的解析規則; 對所要解析的網絡數據對應的關鍵字進行匹配,查找到該關鍵字的當前路徑; 根據所述解析規則和查找到的所述關鍵字的當前路徑,定位所述所要解析的網絡數據的位置; 根據所定位的所述所要解析的網絡數據的位置提取出所述所要解析的網絡數據。2.根據權利要求I所述的方法,其特征在于,所述對所要解析的網絡數據對應的關鍵字進行匹配之前還包括 先匹配出所述所要解析的網絡數據所在的區域關鍵字; 通過所述區域關鍵字找到所述所要解析的網絡數據所在的區塊。3.根據權利要求I所述的方法,其特征在于,對于所述所要解析的網絡數據所在節點包含關鍵字的解析業務,所述解析出所述所要解析的網絡數據之前還包括 根據所述所要解析的網絡數據在其所在節點中的位置和/或該網絡數據的內容,制定所述所要解析的網絡數據的提取規則。4.根據權利要求I至3中任一項所述的方法,其特征在于,所述生成該網頁中網絡數據的解析規則之前還包括 根據所述網頁中的DOM結構,生成該網頁的XPATH路徑。5.一種網絡數據解析裝置,其特征在于,包括 解析規則生成模塊...
【專利技術屬性】
技術研發人員:武偉,劉生權,
申請(專利權)人:北京北森測評技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。