本申請提供了一種網頁信息抽取方法及抽取系統,以解決現有的信息抽取方法自動化程度不高并且技術門檻較高的問題。所述方法包括:通過界面交互方式配置網頁信息抽取任務,并存入數據庫;監控數據庫,當發現數據庫中存入新的網頁信息抽取任務后,將所述新的網頁信息抽取任務發送給調度器;調度器解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務。所述界面交互的方式實現了簡單的人機交互,對于非專業人員而言,也可以按照界面的提示進行任務配置,極大地降低了信息抽取的門檻。而且,調度器依據網頁信息抽取任務執行的一套自動抽取方式,可以實現大批量網頁高度自動化的信息抽取。
【技術實現步驟摘要】
本申請涉及網頁處理技術,特別是涉及一種網頁信息抽取方法及抽取系統。
技術介紹
網頁信息抽取就是獲取網頁的數據,然后通過程序分析,將有用的數據提取分離出來。比如編制程序抽取某網站新聞頻道里的某個新聞標題就是一種網頁信息抽取。目前的信息抽取主要分為兩種,一種是基于規則的抽取,規則可以人工定制,也可以通過學習得至IJ,另一種就是利用機器學習方法進行抽取。搜索引擎工作的一部分就是網頁信息抽取。隨著互聯網的發展,互聯網上的信息規模也隨之不斷擴大。由于互聯網上的數據來自于大量不同的站點,而不同站點的頁面結構差異很大,因此搜索引擎無法開發出通用的抽取器來分析源自不同站點的網頁。 由于這個原因,最初的搜索引擎,尤其是垂直搜索引擎(針對某類知識領域的專業搜索引擎)通過許多個定向的抽取器來解決這一問題,即每個抽取器定向抽取某個站點或具有某類頁面結構的網頁信息。但是,由于這種信息抽取方法需要維護很多個定向抽取器,因此存在不易維護的問題,而且新添加一個或一類站點就需要開發新的定向抽取器,開發成本也很高。之后,人們開始尋找能夠自動生成抽取器的方案?;疖囶^采集器是一種主要基于正則表達式的信息抽取方法,包含信息的抓取、抽取、發布等功能,通過用戶配置的正則表達式,實現定制化的抓取與抽取。但是,這種單純基于正則表達式的信息抽取方法,還需要手工配置正則表達式,自動化程度不高,對大批量的網頁抽取支持不夠。而且,使用者需要掌握正則表達式的知識,同時也必須對網頁結構有相當程度的了解,對非專業人員來說,技術門檻較高。因此,目前還沒有一種真正簡單、實用的自動化抽取方法,供搜索引擎或其他互聯網應用進行網頁信息的自動抽取。
技術實現思路
本申請提供了一種網頁信息抽取方法及抽取系統,以解決現有的信息抽取方法自動化程度不高并且技術門檻較高的問題。為了解決上述問題,本申請公開了一種網頁信息抽取方法,包括通過界面交互方式配置網頁信息抽取任務,并存入數據庫;監控數據庫,當發現數據庫中存入新的網頁信息抽取任務后,將所述新的網頁信息抽取任務發送給調度器;調度器解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務。優選的,所述通過界面交互方式配置網頁信息抽取任務,包括通過界面交互方式執行以下操作提交標注頁面;在所述標注頁面上標注頁面信息的點擊行為和/或抽取行為;對所述點擊行為或抽取行為進行細化配置。優選的,對所述點擊行為或抽取行為進行細化配置之前,還包括配置所述點擊行為或抽取行為的操作對象是單一信息還是列表信息,如果是單一信息,則針對該單一信息進行點擊行為或抽取行為的細化配置;如果是列表信息,則配置列表屬性,并從列表中選取樣例進行點擊行為或抽取行為的細化配置。優選的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基于起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;所述網頁信息抽取任務為一個標注森林或一棵標注樹或一個標注頁面。優選的,所述調度器解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務,包括所述調度器解析網頁信息抽取任務,并依據解析結果調度進行網頁抓取,和/或頁面渲染,和/或頁面信息抽取。 優選的,所述調度器解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務,包括調度器解析網頁信息抽取任務,并獲得每個標注頁面的配置;依據標注頁面的URL調度抓取頁面數據;調度渲染標注頁面,并獲得標注頁面的DOM樹結構;遍歷標注頁面的DOM樹結構中對應節點的配置,并依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取文本信息;如果是點擊行為,并且如果是下載行為,則依據點擊行為的配置調度抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置進行調度渲染。本申請還提供了一種網頁信息抽取系統,包括抽取配置模塊,用于通過界面交互方式配置網頁信息抽取任務,并存入數據庫;數據庫,用于存儲網頁信息抽取任務;監控模塊,用于監控數據庫,當發現數據庫中存入新的網頁信息抽取任務后,將所述新的網頁信息抽取任務發送給調度器;調度器,用于解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務。優選的,所述抽取配置模塊包括配置入口子模塊,用于提交標注頁面;行為標注子模塊,用于在所述標注頁面上標注頁面信息的點擊行為和/或抽取行為;細化配置子模塊,用于對所述點擊行為或抽取行為進行細化配置。優選的,所述抽取配置模塊還包括元素類型選擇子模塊,用于配置所述點擊行為或抽取行為的操作對象是單一信息還是列表 目息;如果是單一信息,則觸發所述細化配置子模塊針對該單一信息進行點擊行為或抽取行為的細化配置;如果是列表信息,則配置列表屬性,并觸發所述細化配置子模塊從列表中選取樣例進行點擊行為或抽取行為的細化配置。優選的,每個點擊行為在觸發頁面跳轉時都會產生一個新的標注頁面;最初的標注頁面為起始頁面,基于起始頁面產生的所有標注頁面的集合構成一棵以該起始頁面為根的標注樹,所有的起始頁面代表的標注樹構成一個標注森林;所述網頁信息抽取任務為一個標注森林或一棵標注樹或一個標注頁面。優選的,所述系統還包括抓取器,用于根據調度器的調度,依據標注頁面的URL抓取頁面數據,并返回給所述調度器;渲染引擎,用 于根據調度器的調度,渲染抓取回來的標注頁面,并獲得標注頁面的DOM樹結構,返回給所述調度器;抽取器,用于根據調度器的調度,依據網頁信息抽取任務的配置抽取相應的網頁信息;所述調度器通過解析網頁信息抽取任務獲得每個標注頁面的配置;所述調度器依據標注頁面的URL調度抓取器抓取頁面數據;所述調度器調度渲染引擎渲染標注頁面,并獲得標注頁面的DOM樹結構;所述調度器遍歷標注頁面的DOM樹結構中對應節點的配置,并依據所述節點的配置進行如下操作如果是抽取行為,則依據抽取行為的配置調度抽取器抽取文本信息;如果是點擊行為,并且如果是下載行為,則依據點擊行為的配置調度抓取器抓取下載內容;如果是涉及渲染的點擊行為,則依據點擊行為的配置調度渲染引擎進行渲染。與現有技術相比,本申請包括以下優點首先,本申請提供的網頁信息抽取方法及系統可通過界面交互方式配置網頁信息抽取任務,系統中的調度器通過解析網頁信息抽取任務來自動進行信息抽取。所述界面交互的方式實現了簡單的人機交互,對于非專業人員而言,也可以按照界面的提示進行任務配置,極大地降低了信息抽取的門檻。而且,調度器依據網頁信息抽取任務執行的一套自動抽取方式,可以實現大批量網頁高度自動化的信息抽取。其次,本申請的任務配置過程中不僅可以標注出網頁中要抽取的文本信息,還可以模擬用戶的點擊行為進行配置,例如標注出網頁中要抽取的鏈接進而下載該鏈接的內容,從而完成批量網頁的抽取。而且,本申請還可以將網頁DOM樹中類似的兄弟節點配置為列表元素,實現對列表元素的自動化抽取。再次,本申請還支持網頁DOM樹中多個節點內容的信息抽取,因此可以精準地抽取信息。當然,實施本申請的任一產品不一定需要同時達到以上所述的所有優點。附圖說明圖I是本申請實施例所述一種網頁信息抽取方法的流程圖;圖2是本申請實施例中頁面節點的示意圖;圖3. I至3. 4是本申請實施例中通過界面交互方式配本文檔來自技高網...
【技術保護點】
一種網頁信息抽取方法,其特征在于,包括:通過界面交互方式配置網頁信息抽取任務,并存入數據庫;監控數據庫,當發現數據庫中存入新的網頁信息抽取任務后,將所述新的網頁信息抽取任務發送給調度器;調度器解析網頁信息抽取任務,并依據解析結果自動執行所述網頁信息抽取任務。
【技術特征摘要】
【專利技術屬性】
技術研發人員:孫一鳴,強琦,蔡波洋,金曉軍,吳宗遠,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。