• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>復旦大學專利>正文

    一種基于html網頁的數據抽取系統技術方案

    技術編號:9171034 閱讀:385 留言:0更新日期:2013-09-19 19:37
    本發明專利技術屬于計算機網絡技術領域,具體為一種基于html網頁的數據抽取系統。其由xml解析器,html引擎以及數據管理器三個模塊組成。本發明專利技術的優點在于:只需要在xml文件中描述html網頁中哪些節點信息需要抓取,以及xml中其他一些配置信息,就可以快速的抓取所需要的數據,其方法簡單、快捷。

    【技術實現步驟摘要】

    【技術保護點】
    一種基于html網頁的數據抽取系統,其特征在于:其由xml解析器,html引擎以及數據管理器三個模塊組成;其中:所述xml解析器模塊負責解析sysconfig.xml文件,得到系統初始化參數、頁面的url地址和目標節點的描述信息;所述html引擎模塊首先驗證sysconfig.xml文件配置信息的有效性,如果有效則繼續執行,否則提示用戶檢查xml文件配置信息;xml文件配置通過驗證之后,根據配置信息中的頁面鏈接地址,獲取該頁面的html文檔,然后再調用html解析器來解析html文檔,根據sysconfig.xml中配置的目標節點選擇器描述信息,獲得html中目標元素,從而獲得該元素的數據;所述數據管理模塊主要是負責數據的持久化工作,根據用戶在sysconfig.xml中配置的數據保存方式,選擇相應的數據管理器來完成數據的持久化工作;所述系統進行數據抽取的工作流程如下:首先,html引擎模塊根據xml解析器模塊獲得的html頁面url地址,通過http?get請求獲取目標網頁文檔;接著xml解析器模塊根據xml文件中的配置目標節點選擇器,描述具有相同html頁面結構的目標節點;再經過我們的html?引擎模塊解析,得到我們想要的目標節點的結構化數據;最后由數據管理器模塊根據配置文件中配置的數據保存方式將其保存在相應的介質中。...

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:王新,陳功鎖,權恒星,
    申請(專利權)人:復旦大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品久久久久久久无码| 亚洲av日韩av无码av| 国产成人无码午夜福利软件| 国内精品人妻无码久久久影院导航| 亚洲成a人无码亚洲成www牛牛| 免费无码黄网站在线看| 在线播放无码后入内射少妇| 亚洲中文字幕无码一久久区| 精品无码成人片一区二区98| 亚洲中文字幕无码爆乳| 免费无码专区毛片高潮喷水| 亚洲AV无码一区二区三区国产| 中文字幕日韩精品无码内射| 亚洲av永久无码精品古装片| 亚洲爆乳少妇无码激情| 最新无码A∨在线观看| 久久亚洲精品无码aⅴ大香| 十八禁视频在线观看免费无码无遮挡骂过| 久久久久亚洲av成人无码电影| 亚洲熟妇av午夜无码不卡| 日韩精品无码人成视频手机| 亚洲AV无码乱码在线观看性色扶 | 久久精品无码精品免费专区| 99久久国产热无码精品免费| 亚洲爆乳大丰满无码专区| 久久99久久无码毛片一区二区| 无码午夜成人1000部免费视频 | 无码精品人妻一区二区三区免费| 亚洲熟妇无码八AV在线播放| 日韩毛片免费无码无毒视频观看 | 办公室丝袜激情无码播放| 无码人妻丝袜在线视频| 亚洲AV无码一区二区三区DV| 无码乱码观看精品久久| 青青爽无码视频在线观看| 亚洲中文字幕无码mv| 亚洲av无码专区在线观看下载| 亚洲AV综合色区无码二区偷拍| 熟妇无码乱子成人精品| 人妻中文字系列无码专区| heyzo专区无码综合|