【技術實現步驟摘要】
【技術保護點】
一種基于html網頁的數據抽取系統,其特征在于:其由xml解析器,html引擎以及數據管理器三個模塊組成;其中:所述xml解析器模塊負責解析sysconfig.xml文件,得到系統初始化參數、頁面的url地址和目標節點的描述信息;所述html引擎模塊首先驗證sysconfig.xml文件配置信息的有效性,如果有效則繼續執行,否則提示用戶檢查xml文件配置信息;xml文件配置通過驗證之后,根據配置信息中的頁面鏈接地址,獲取該頁面的html文檔,然后再調用html解析器來解析html文檔,根據sysconfig.xml中配置的目標節點選擇器描述信息,獲得html中目標元素,從而獲得該元素的數據;所述數據管理模塊主要是負責數據的持久化工作,根據用戶在sysconfig.xml中配置的數據保存方式,選擇相應的數據管理器來完成數據的持久化工作;所述系統進行數據抽取的工作流程如下:首先,html引擎模塊根據xml解析器模塊獲得的html頁面url地址,通過http?get請求獲取目標網頁文檔;接著xml解析器模塊根據xml文件中的配置目標節點選擇器,描述具有相同html頁面結構的目標節點;再經過我 ...
【技術特征摘要】
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。