【技術實現步驟摘要】
本專利技術涉及網絡視頻信息獲取領域,尤其是涉及一種網頁信息獲取系統及方法。
技術介紹
目前網頁信息的獲取技術主要集中在全網網頁信息的獲取和垂直網頁信息的獲取。普通的網頁搜索引擎,如谷歌公司的谷歌搜索(www. google, com)和百度公司的百度搜索(WWW. baidu. com),這類網頁搜索,它的信息主要是從每個下載頁面中按照一定的條件抽取文字等重要信息,但是這種抽取可以允許不太準確的信息(比如在一個視頻播放頁中,它不會太重視導演是誰,視頻的時長是多久。再如電視節目預告頁面中,它可以 不重視一個節目是7:00開始還是7:30開始),垂直類獲取就必須要求準確的信息。所以通用的全網網頁信息獲取信息的準確性無法達到要求。目前的網頁獲取系統,主要是在解決如何獲取到系統需要獲取的網頁,而對本身頁面中的信息的準確性無法達到視頻垂直領域的要求;視頻垂直領域對信息的更新頻率要求,普通的網頁獲取頁無法準確的控制其更新的頻率。垂直網頁信息的獲取目前沒有看到一套結構清楚,各項功能獨立,容易控制重復下載和更新頻率通用的系統及其方法。
技術實現思路
為解決上述問題,本專利技術提供了一種網頁信息獲取系統及方法,其中該系統包括任務投遞器,用于將種子URL或任務解析器解析出的子URL封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志;任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器;包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應 ...
【技術保護點】
一種網頁信息獲取系統,其特征在于該系統包括以下的模塊:任務投遞器,用于將種子所在的統一資源定位符(即:Uniform/Universal?Resource?Locator,以下簡稱:URL)或任務解析器解析出的子URL并封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志;任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器;包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的數據,該數據包括一個URL集合和一個視頻信息集合;以及存儲設備,用于保存解析器解析到的數據。
【技術特征摘要】
1.一種網頁信息獲取系統,其特征在于該系統包括以下的模塊 任務投遞器,用于將種子所在的統一資源定位符(即Uniform/Universal ResourceLocator,以下簡稱URL)或任務解析器解析出的子URL并封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志; 任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器; 包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的數據,該數據包括一個URL集合和一個視頻信息集合; 以及存儲設備,用于保存解析器解析到的數據。2.如權利要求I所述的系統,其特征在于 任務投遞器將由任務執行器解析出的子URL封裝為一個任務投遞到任務隊列。3.如權利要求I所述的系統,其特征在于 所述URL集合包括O到η個URL信息以及每個URL的相關信息,其中包括了子URL信息以及相關信息,該視頻信息集合包括O到η個視頻信息數據,所述相關信息包括標題、圖片、高清標識以及是否是優先任務,所述視頻信息包括播放次數、主演、評論、時長、視頻簡介。4.如權利要求I所述的系統,其特征在于 任務投遞器、任務執行器與任務隊列之間,都是通過超文本傳輸協議(即=Hype TextTransport Potocol,以下簡稱HTTP)進行交互,而任務執行器通過數據庫規定的協議或寫文件的方式與存儲設備進行交互。5.如權利要求I所述的系統,其特征在于 所述系統的任務投遞器用于將URL、與URL對應的相關信息封裝成一個json格式的字符串投遞到任務隊列中。6.如權利要求I所述的系統,其特征在于 所述任務類型指的是任務中的URL的具體類型,具體類型包括播放頁、列表頁、搜索結果頁或者是未指定特殊類型的頁面,相對應的解析器為播放頁的解析器、列表頁的解析器、搜索結果頁的解析器、以及通用的解析器進行解析。7.如權利要求I所述的系統,其特征在于 在每一個任務投遞到任務隊列時,進入之前首先要檢查這個任務中的URL,是否已投遞過,沒有投遞過的話,進入隊列,并記錄這個URL的投遞時間;如果投遞過,那么檢查上次投遞的時間與當前時間的間隔,這...
【專利技術屬性】
技術研發人員:劉云劍,姚健,潘柏宇,盧述奇,
申請(專利權)人:合一網絡技術北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。