• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網頁檢測方法和裝置制造方法及圖紙

    技術編號:15690892 閱讀:136 留言:0更新日期:2017-06-24 03:39
    本申請公開了一種網頁檢測方法和裝置。其中,該方法包括:對目標網站在預設時間段內的訪問日志進行解析,得到在預設時間段內多個被訪問網頁;從多個被訪問網頁中確定出目標網頁,目標網頁為在預設時間段之前未被訪問的網頁;爬取目標網頁的頁面內容,從頁面內容中解析出目標網頁的發布時間;判斷發布時間是否處于預設時間段內;以及在判斷出發布時間處于預設時間段內時,確定目標網頁為在預設時間段內更新的網頁。本申請解決了由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。

    Method and device for detecting web pages

    The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the target web page content crawl the analysis from the target web page content release time; judging whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates in a preset period of time\. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.

    【技術實現步驟摘要】
    網頁檢測方法和裝置
    本申請涉及互聯網領域,具體而言,涉及一種網頁檢測方法和裝置。
    技術介紹
    在互聯網領域,網站上的網頁會不斷更新,而網站更新量也是評價網站績效的一項重要指標。這里的網站更新量指的是在一定時間內網站更新的網頁的數量。在統計網站更新量的過程中,如何確定哪些網頁是網站在一定時間內更新的網頁是一個難以解決的問題。目前,通常是通過爬蟲程序爬取網站上的網頁,然后逐個網頁分析是否為更新的網頁。然而,如果要統計更新量的網站越大,每次爬取的網頁數就越多,而這些網頁中大部分不是更新的網頁,使得需要檢測的網頁數量大,導致更新網頁的檢測過程效率低。針對上述的問題,目前尚未提出有效的解決方案。
    技術實現思路
    本申請實施例提供了一種網頁檢測方法和裝置,以至少解決由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。根據本申請實施例的一個方面,提供了一種網頁檢測方法,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。進一步地,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;將未查詢到的哈希值對應的網頁作為所述目標網頁。進一步地,在爬取所述目標網頁的頁面內容之后,所述方法還包括:根據所述頁面內容判斷所述目標網頁是否為列表頁;在判斷出所述目標網頁是列表頁時,丟棄所述目標網頁。進一步地,從所述頁面內容中解析出所述目標網頁的發布時間包括:按照所述目標網站配置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間;或者,按照預先設置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間。根據本申請實施例的另一方面,還提供了一種網頁檢測裝置,包括:第一解析單元,用于對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;第一確定單元,用于從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;第二解析單元,用于爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;第一判斷單元,用于判斷所述發布時間是否處于所述預設時間段內;以及第二確定單元,用于在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,所述第一確定單元具體用于逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。進一步地,所述第一確定單元包括:編碼模塊,用于對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;查詢模塊,用于在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;確定模塊,用于將未查詢到的哈希值對應的網頁作為所述目標網頁。進一步地,所述裝置還包括:第二判斷單元,用于在爬取所述目標網頁的頁面內容之后,根據所述頁面內容判斷所述目標網頁是否為列表頁;丟棄單元,用于在判斷出所述目標網頁是列表頁時,丟棄所述目標網頁。進一步地,所述第二解析單元包括:第一解析模塊,用于按照所述目標網站配置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間;或者,第二解析模塊,用于按照預先設置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間。根據本申請實施例,通過對目標網站在預設時間段內的訪問日志進行解析,得到在預設時間段內多個被訪問網頁;從多個被訪問網頁中確定出目標網頁,目標網頁為在預設時間段之前未被訪問的網頁;爬取目標網頁的頁面內容,從頁面內容中解析出目標網頁的發布時間;判斷發布時間是否處于預設時間段內,在判斷出發布時間處于預設時間段內時,確定目標網頁為在預設時間段內更新的網頁。由于僅檢測預設時間段內的被訪問網頁,相對于現有技術中爬取網站的所有網頁而言,其網頁的數量大大減少,解決了由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題,提高了更新網頁的檢測效率。附圖說明此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:圖1是根據本申請實施例的網頁檢測方法的流程圖;圖2是根據本申請實施例的網頁檢測裝置的示意圖。具體實施方式為了使本
    的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本申請的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。根據本申請實施例,提供了一種網頁檢測方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執行所示本文檔來自技高網
    ...
    網頁檢測方法和裝置

    【技術保護點】
    一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。

    【技術特征摘要】
    1.一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。2.根據權利要求1所述的方法,其特征在于,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。3.根據權利要求2所述的方法,其特征在于,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;將未查詢到的哈希值對應的網頁作為所述目標網頁。4.根據權利要求1所述的方法,其特征在于,在爬取所述目標網頁的頁面內容之后,所述方法還包括:根據所述頁面內容判斷所述目標網頁是否為列表頁;在判斷出所述目標網頁是列表頁時,丟棄所述目標網頁。5.根據權利要求1所述的方法,其特征在于,從所述頁面內容中解析出所述目標網頁的發布時間包括:按照所述目標網站配置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間;或者按照預先設置的解析規則從...

    【專利技術屬性】
    技術研發人員:李新國
    申請(專利權)人:北京國雙科技有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码MV在线观看 | 亚洲熟妇无码一区二区三区| 久久久久无码精品国产| JAVA性无码HD中文| 免费无码又爽又刺激毛片| 亚洲国产精品无码久久一线| 免费无码一区二区三区| yy111111少妇影院无码| 精品国产v无码大片在线观看| 国产精品无码av天天爽| 精品无码一区二区三区电影| 国产成人无码区免费网站| 亚洲国产成人精品无码区二本| 亚洲av无码专区国产乱码在线观看 | 加勒比无码一区二区三区| 亚洲精品~无码抽插| 午夜无码视频一区二区三区| 99精品一区二区三区无码吞精| 丰满日韩放荡少妇无码视频| 国产精品无码一本二本三本色 | 亚洲av无码av在线播放| 人妻少妇伦在线无码专区视频| 中文字幕久久精品无码| 中文字幕无码av激情不卡 | 亚洲AV无码专区在线亚| 国产AV无码专区亚洲A∨毛片| av无码东京热亚洲男人的天堂| 免费a级毛片无码a∨蜜芽试看| 亚洲精品无码久久| 无码粉嫩虎白一线天在线观看| 中文字幕亚洲精品无码| 中文字幕无码免费久久99| 亚洲Av永久无码精品三区在线| 亚洲AV无码日韩AV无码导航 | 精品人妻无码一区二区色欲产成人 | 国产免费黄色无码视频| 国产日产欧洲无码视频无遮挡| 精品久久久无码中字| 无码国模国产在线无码精品国产自在久国产 | 国产成人年无码AV片在线观看| MM1313亚洲精品无码久久|