• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種網頁信息獲取系統及方法技術方案

    技術編號:8271510 閱讀:192 留言:0更新日期:2013-01-31 03:45
    本發明專利技術提供一種網頁信息獲取系統及方法,該系統包括任務投遞器,任務隊列,任務執行器及存儲器。前述每個模塊都是以服務的方式獨立運行,這一特性使整個系統擴展性非常好。該方法包括將一個URL封裝成一個需要下載的任務;將任務投遞到任務隊列;任務隊列接收任務,從任務隊列獲取任務;根據任務類型獲取對應的任務解析器;使用任務解析器解析下載的網頁源代碼;以及保存數據和將URL網頁中解析到的子URL封裝為新任務再投遞到任務隊列。該系統和方法可以應用于任何垂直領域的網頁信息下載,并能容易且只需關注自定義添加不同網站解析器,保證了全網網頁信息獲取的準確性,并且容易控制重復下載和更新頻率通用的系統。

    【技術實現步驟摘要】
    本專利技術涉及網絡視頻信息獲取領域,尤其是涉及一種網頁信息獲取系統及方法
    技術介紹
    目前網頁信息的獲取技術主要集中在全網網頁信息的獲取和垂直網頁信息的獲取。普通的網頁搜索引擎,如谷歌公司的谷歌搜索(www. google, com)和百度公司的百度搜索(WWW. baidu. com),這類網頁搜索,它的信息主要是從每個下載頁面中按照一定的條件抽取文字等重要信息,但是這種抽取可以允許不太準確的信息(比如在一個視頻播放頁中,它不會太重視導演是誰,視頻的時長是多久。再如電視節目預告頁面中,它可以 不重視一個節目是7:00開始還是7:30開始),垂直類獲取就必須要求準確的信息。所以通用的全網網頁信息獲取信息的準確性無法達到要求。目前的網頁獲取系統,主要是在解決如何獲取到系統需要獲取的網頁,而對本身頁面中的信息的準確性無法達到視頻垂直領域的要求;視頻垂直領域對信息的更新頻率要求,普通的網頁獲取頁無法準確的控制其更新的頻率。垂直網頁信息的獲取目前沒有看到一套結構清楚,各項功能獨立,容易控制重復下載和更新頻率通用的系統及其方法。
    技術實現思路
    為解決上述問題,本專利技術提供了一種網頁信息獲取系統及方法,其中該系統包括任務投遞器,用于將種子URL或任務解析器解析出的子URL封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志;任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器;包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的數據,該數據包括一個URL集合和一個視頻信息集合;以及存儲設備,用于保存解析器解析到的數據。進一步,任務投遞器將由任務執行器解析出的子URL封裝為一個任務投遞到任務隊列。進一步,所述URL集合包括O到η個URL信息以及每個URL的相關信息,其中包括了子URL信息以及相關信息,該視頻信息集合包括O到η個視頻信息數據,所述相關信息包括標題、圖片、高清標識以及是否是優先任務,所述視頻信息包括播放次數、主演、評論、時長、視頻簡介。進一步,任務投遞器、任務執行器與任務隊列之間,都是通過http協議進行交互,而任務執行器通過數據庫規定的協議或寫文件的方式與存儲設備進行交互。進一步,所述系統的任務投遞器用于將URL、與URL對應的相關信息封裝成一個json格式的字符串投遞到任務隊列中。進一步,所述任務類型指的是任務中的URL的具體類型,具體類型包括播放頁、列表頁、搜索結果頁或者是未指定特殊類型的頁面,相對應的解析器為播放頁的解析器、列表頁的解析器、搜索結果頁的解析器、以及通用的解析器進行解析。進一步,在每一個任務投遞到任務隊列時,進入之前首先要檢查這個任務中的URL,是否已投遞過,沒有投遞過的話,進入隊列,并記錄這個URL的投遞時間;如果投遞過,那么檢查上次投遞的時間與當前時間的間隔,這個時間間隔就是最快時間頻率,如果小于最快時間頻率,就不會投遞到隊列,并返回信息給任務投遞器,如果大于最快的時間頻率,則放入隊列,并記錄這個URL的投遞時間。本專利技術提供了一種網頁信息獲取方法,該方法包括以下步驟步驟(I)將一個種子URL封裝成一個下載任務;步驟(2)通過約定的協議將任務投遞到任務隊列;步驟(3)任務隊列接收任務;步驟(4)任務執行器通過約定的協議從任務隊列獲取任務,并根據根據 任務類型獲取對應的任務解析器;步驟(5)對URL網頁進行源碼下載并使用獲取到的任務解析器進行解析;步驟(6)將解析出的視頻信息集合和URL集合保存在存儲設備上;步驟(7)任務投遞器將由任務執行器解析出的子URL封裝為一個任務投遞到任務隊列;步驟(8)循環判斷任務隊列中是否有任務,如果有轉到步驟(3),否則結束。進一步,所述URL集合包括O到η個URL信息以及每個URL的相關信息,其中包括了子URL信息以及相關信息,該視頻信息集合包括O到η個視頻信息數據,所述相關信息包括標題、圖片、高清標識以及是否是優先任務,所述視頻信息包括播放次數、主演、評論、時長、視頻簡介。進一步,任務投遞器、任務執行器與任務隊列之間,都是通過http協議進行交互,而任務執行器通過數據庫規定的協議或寫文件的方式與存儲設備進行交互。進一步,所述任務投遞器用于將URL、與URL對應的相關信息封裝成一個j son格式的字符串投遞到任務隊列中。進一步,步驟(4)中所述任務類型指的是任務中的URL的具體類型,具體類型包括播放頁、列表頁、搜索結果頁或者是未指定特殊類型的頁面,相對應的解析器為播放頁的解析器、列表頁的解析器、搜索結果頁的解析器、以及通用的解析器進行解析。進一步,在每一個任務投遞到任務隊列時,進入之前首先要檢查這個任務中的URL,是否已投遞過,沒有投遞過的話,進入隊列,并記錄這個URL的投遞時間;如果投遞過,那么檢查上次投遞的時間與當前時間的間隔,這個時間間隔就是最快時間頻率,如果小于最快時間頻率,就不會投遞到隊列,并返回信息給任務投遞器,如果大于最快的時間頻率,則放入隊列,并記錄這個URL的投遞時間。本專利技術的有益效果是各功能模塊獨立,功能劃分非常明確,每個模塊可不限于任何形式和語言實現的限制;統一集中的任務隊列,每一個任務的投遞下載時間點,被取走下載的時間點,進入隊列的次數都在同一模塊中處理,簡化了是否需要重復下載,下載頻率的控制;單獨的任務解析器,不同的網頁解析,只需要開發對應的解析器,每個解析器能專注于獲取準確的信息。(由于垂直領域的網頁信息獲取,一般是需要獲取信息非常準確,這有別于通用網頁獲取信息技術。還有一方面是維護成本的價值,由于視頻類垂直網頁結構更新非常快,單獨的解析器也有利于維護人員快速專注的維護不同的解析器);非常有利于擴展系統處理能力,而不需要對系統架構做任何的修改;添加新的網站頁面獲取非常容易,只需要添加一個對應的解析器,就可快速的獲取到新網頁的頁面信息。附圖說明圖I是依據本專利技術的網頁信息獲取系統的框圖;圖2是依據本專利技術的網頁信息獲取方法的流程圖;圖3是依據本專利技術的任務執行器內部執行任務的流程圖;圖4是根據本專利技術的具體實施例的準備工作、種子URL任務投遞、數據交換過程的流程圖;圖5是根據本專利技術的具體實施例的對新網站進行網頁信息獲取的流程圖。 具體實施例方式下面結合附圖對本專利技術進一步說明。如圖I所示,本專利技術的信息獲取系統包括任務投遞器,用于將種子URL或任務解析器解析出的子URL封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志;任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器;包括多個任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的詳細數據,該詳細數據包括一個URL集合和一個視頻信息集合,該URL集合包括O到η個URL信息以及每個URL的相關信息,該視頻信息集合包括O到η個視頻信息數據;本文檔來自技高網...

    【技術保護點】
    一種網頁信息獲取系統,其特征在于該系統包括以下的模塊:任務投遞器,用于將種子所在的統一資源定位符(即:Uniform/Universal?Resource?Locator,以下簡稱:URL)或任務解析器解析出的子URL并封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志;任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器;包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的數據,該數據包括一個URL集合和一個視頻信息集合;以及存儲設備,用于保存解析器解析到的數據。

    【技術特征摘要】
    1.一種網頁信息獲取系統,其特征在于該系統包括以下的模塊 任務投遞器,用于將種子所在的統一資源定位符(即Uniform/Universal ResourceLocator,以下簡稱URL)或任務解析器解析出的子URL并封裝成下載任務,將任務投遞到任務隊列,并記錄投遞成功與否的日志; 任務隊列,用于存取任務,接收任務投遞器投遞的任務,還用于等待任務執行器獲取任務,當任務執行器發送請求獲取任務時,任務隊列將任務返回給任務執行器; 包括任務解析器的任務執行器,用于執行任務隊列中的任務,其從任務隊列獲取下載任務;通過任務類型獲取到對應的任務解析器,下載網頁源代碼,調用任務解析器對網頁源代碼進行解析,并返回解析到的數據,該數據包括一個URL集合和一個視頻信息集合; 以及存儲設備,用于保存解析器解析到的數據。2.如權利要求I所述的系統,其特征在于 任務投遞器將由任務執行器解析出的子URL封裝為一個任務投遞到任務隊列。3.如權利要求I所述的系統,其特征在于 所述URL集合包括O到η個URL信息以及每個URL的相關信息,其中包括了子URL信息以及相關信息,該視頻信息集合包括O到η個視頻信息數據,所述相關信息包括標題、圖片、高清標識以及是否是優先任務,所述視頻信息包括播放次數、主演、評論、時長、視頻簡介。4.如權利要求I所述的系統,其特征在于 任務投遞器、任務執行器與任務隊列之間,都是通過超文本傳輸協議(即=Hype TextTransport Potocol,以下簡稱HTTP)進行交互,而任務執行器通過數據庫規定的協議或寫文件的方式與存儲設備進行交互。5.如權利要求I所述的系統,其特征在于 所述系統的任務投遞器用于將URL、與URL對應的相關信息封裝成一個json格式的字符串投遞到任務隊列中。6.如權利要求I所述的系統,其特征在于 所述任務類型指的是任務中的URL的具體類型,具體類型包括播放頁、列表頁、搜索結果頁或者是未指定特殊類型的頁面,相對應的解析器為播放頁的解析器、列表頁的解析器、搜索結果頁的解析器、以及通用的解析器進行解析。7.如權利要求I所述的系統,其特征在于 在每一個任務投遞到任務隊列時,進入之前首先要檢查這個任務中的URL,是否已投遞過,沒有投遞過的話,進入隊列,并記錄這個URL的投遞時間;如果投遞過,那么檢查上次投遞的時間與當前時間的間隔,這...

    【專利技術屬性】
    技術研發人員:劉云劍姚健潘柏宇盧述奇
    申請(專利權)人:合一網絡技術北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品va无码免费麻豆| 无码AV波多野结衣久久| (无码视频)在线观看| 无码的免费不卡毛片视频| 亚洲成AV人在线观看天堂无码| 色窝窝无码一区二区三区| 精品久久久无码中字| 亚洲va中文字幕无码久久| 亚洲a∨无码精品色午夜| 中文字幕丰满伦子无码 | 爽到高潮无码视频在线观看| 国内精品无码一区二区三区 | 无码人妻aⅴ一区二区三区| 久久午夜无码鲁丝片直播午夜精品 | 无码无需播放器在线观看| 成人A片产无码免费视频在线观看| 色综合无码AV网站| 日木av无码专区亚洲av毛片| 日韩人妻无码一区二区三区| 亚洲精品无码av天堂| 国产在线无码精品无码| 亚洲性无码一区二区三区| 无套中出丰满人妻无码| 亚洲∧v久久久无码精品| 中文字幕无码一区二区免费| 精品久久久无码中文字幕| 亚洲?v无码国产在丝袜线观看| 国产精品无码DVD在线观看| yy111111电影院少妇影院无码 | 精品亚洲av无码一区二区柚蜜| 人妻无码一区二区三区AV| 国产产无码乱码精品久久鸭| 国产a v无码专区亚洲av| 亚洲国产精品无码久久青草| av无码东京热亚洲男人的天堂| 用舌头去添高潮无码视频| 伊人久久无码精品中文字幕| 国产精品无码v在线观看| 中文字幕无码一区二区免费| 亚洲AV无码久久精品成人| 日韩精品无码一区二区三区免费|