The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the target web page content crawl the analysis from the target web page content release time; judging whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates in a preset period of time\. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.
【技術實現步驟摘要】
網頁檢測方法和裝置
本申請涉及互聯網領域,具體而言,涉及一種網頁檢測方法和裝置。
技術介紹
在互聯網領域,網站上的網頁會不斷更新,而網站更新量也是評價網站績效的一項重要指標。這里的網站更新量指的是在一定時間內網站更新的網頁的數量。在統計網站更新量的過程中,如何確定哪些網頁是網站在一定時間內更新的網頁是一個難以解決的問題。目前,通常是通過爬蟲程序爬取網站上的網頁,然后逐個網頁分析是否為更新的網頁。然而,如果要統計更新量的網站越大,每次爬取的網頁數就越多,而這些網頁中大部分不是更新的網頁,使得需要檢測的網頁數量大,導致更新網頁的檢測過程效率低。針對上述的問題,目前尚未提出有效的解決方案。
技術實現思路
本申請實施例提供了一種網頁檢測方法和裝置,以至少解決由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。根據本申請實施例的一個方面,提供了一種網頁檢測方法,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之 ...
【技術保護點】
一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。
【技術特征摘要】
1.一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;爬取所述目標網頁的頁面內容,從所述頁面內容中解析出所述目標網頁的發布時間;判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。2.根據權利要求1所述的方法,其特征在于,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。3.根據權利要求2所述的方法,其特征在于,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;將未查詢到的哈希值對應的網頁作為所述目標網頁。4.根據權利要求1所述的方法,其特征在于,在爬取所述目標網頁的頁面內容之后,所述方法還包括:根據所述頁面內容判斷所述目標網頁是否為列表頁;在判斷出所述目標網頁是列表頁時,丟棄所述目標網頁。5.根據權利要求1所述的方法,其特征在于,從所述頁面內容中解析出所述目標網頁的發布時間包括:按照所述目標網站配置的解析規則從所述頁面內容中解析出所述目標網頁的發布時間;或者按照預先設置的解析規則從...
【專利技術屬性】
技術研發人員:李新國,
申請(專利權)人:北京國雙科技有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。