一種網頁信息抽取方法及抽取系統技術方案

技術編號：8241543 閱讀：161 留言：0更新日期：2013-01-24 22:27

本申請提供了一種網頁信息抽取方法及抽取系統，以解決現有的信息抽取方法自動化程度不高并且技術門檻較高的問題。所述方法包括：通過界面交互方式配置網頁信息抽取任務，并存入數據庫；監控數據庫，當發現數據庫中存入新的網頁信息抽取任務后，將所述新的網頁信息抽取任務發送給調度器；調度器解析網頁信息抽取任務，并依據解析結果自動執行所述網頁信息抽取任務。所述界面交互的方式實現了簡單的人機交互，對于非專業人員而言，也可以按照界面的提示進行任務配置，極大地降低了信息抽取的門檻。而且，調度器依據網頁信息抽取任務執行的一套自動抽取方式，可以實現大批量網頁高度自動化的信息抽取。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及網頁處理技術，特別是涉及一種網頁信息抽取方法及抽取系統。
技術介紹
網頁信息抽取就是獲取網頁的數據，然后通過程序分析，將有用的數據提取分離出來。比如編制程序抽取某網站新聞頻道里的某個新聞標題就是一種網頁信息抽取。目前的信息抽取主要分為兩種，一種是基于規則的抽取，規則可以人工定制，也可以通過學習得至IJ，另一種就是利用機器學習方法進行抽取。搜索引擎工作的一部分就是網頁信息抽取。隨著互聯網的發展，互聯網上的信息規模也隨之不斷擴大。由于互聯網上的數據來自于大量不同的站點，而不同站點的頁面結構差異很大，因此搜索引擎無法開發出通用的抽取器來分析源自不同站點的網頁。由于這個原因，最初的搜索引擎，尤其是垂直搜索引擎(針對某類知識領域的專業搜索引擎)通過許多個定向的抽取器來解決這一問題，即每個抽取器定向抽取某個站點或具有某類頁面結構的網頁信息。但是，由于這種信息抽取方法需要維護很多個定向抽取器，因此存在不易維護的問題，而且新添加一個或一類站點就需要開發新的定向抽取器，開發成本也很高。之后，人們開始尋找能夠自動生成抽取器的方案?；疖囶^采集器是一種主要基于正則表達式的信息抽取方法，包含信息的抓取、抽取、發布等功能，通過用戶配置的正則表達式，實現定制化的抓取與抽取。但是，這種單純基于正則表達式的信息抽取方法，還需要手工配置正則表達式，自動化程度不高，對大批量的網頁抽取支持不夠。而且，使用者需要掌握正則表達式的知識，同時也必須對網頁結構有相當程度的了解，對非專業人員來說，技術門檻較高。因此，目前還沒有一種真正簡單、實用的自動化抽取方法，供搜索引擎或其他互聯網應用進行...

【技術保護點】
一種網頁信息抽取方法，其特征在于，包括：通過界面交互方式配置網頁信息抽取任務，并存入數據庫；監控數據庫，當發現數據庫中存入新的網頁信息抽取任務后，將所述新的網頁信息抽取任務發送給調度器；調度器解析網頁信息抽取任務，并依據解析結果自動執行所述網頁信息抽取任務。

【技術特征摘要】

【專利技術屬性】
技術研發人員：孫一鳴，強琦，蔡波洋，金曉軍，吳宗遠，
申請(專利權)人：阿里巴巴集團控股有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

怎樣做一個網頁技術