本發明專利技術公開了一種基于瀏覽器內核的網頁獲取系統,包括:S1.獲取網頁站點,并注入代碼的介入周期;S2.針對網頁內容進行錄制或滾動截屏;S3.獲取網頁樣點,識別網頁是否變更;S4.識別并獲取網頁中的相關數據與錯誤數據,并自動上報、還原;S5.將獲取的網頁中的相關數據與錯誤數據生成工單,并交于處理人處理。本發明專利技術提供的一種基于瀏覽器內核的網頁獲取系統解決了定向抓取網頁內容變化,并上報問題,分流處理;解決了原有技術中操作繁瑣,消耗成本與時間較高以及效率較低的問題。時間較高以及效率較低的問題。時間較高以及效率較低的問題。
【技術實現步驟摘要】
一種基于瀏覽器內核的網頁獲取系統
[0001]本專利技術涉及信息處理
,特別是一種基于瀏覽器內核的網頁獲取系統。
技術介紹
[0002]近年來,隨著科技水平的不斷發展,網絡也逐漸遍布于世界的各個角落,隨之網絡上的信息也出現爆發式的增長。網絡上信息的主要傳播方式是網頁,網頁是一個包含HTML標簽的純文本文件,它可以存放在世界某個角落的某一臺計算機中,是萬維網中的一“頁”,是超文本標記語言格式(標準通用標記語言的一個應用,文件擴展名為.html或.htm)。
[0003]目前,現有的網頁信息抓取技術過于繁瑣,所需成本與時間消耗較高,效率較低,如:需通過人工控制瀏覽器去識別網頁元素,網頁標題,站點信息以及網頁變化;提交報修時,站點信息需要人工抓取,或取不全,達不到運維能力等等。
技術實現思路
[0004]本專利技術提供一種基于瀏覽器內核的網頁獲取系統,包括:S1.獲取網頁站點,并注入代碼的介入周期;S2.針對網頁內容進行錄制或滾動截屏;S3.獲取網頁樣點,識別網頁是否變更;S4.識別并獲取網頁中的相關數據與錯誤數據,并自動上報、還原;S5.將獲取的網頁中的相關數據與錯誤數據生成工單,并交于處理人處理。
[0005]進一步地,所述S2在瀏覽視角到達標記位置時,網頁將自動加載下頁內容;所述S2自動識別滾動的DOM標簽區域,并記錄第一個區域的元素個數,并控制瀏覽器向下滾動;所述S2瀏覽器依照Y=300px/次的頻率進行滾動加載,當區域內的元素fn=n*5時,瀏覽器將停止滾動;所述S2在滾動截屏時,截屏重合部分與相似處進行判定拼接處理。
[0006]進一步地,所述S3網站樣點中包括含網站內所有元素的數字矩陣、此前獲取的網頁截圖、網頁全地址、網頁的來源地址以及網頁標題;所述S3網頁截圖的大小為每5px*5px區域記錄x1=3px,y1=2px的像素值;所述S3識別該網頁站點的最后修改時間判定網頁內容是否變更。
[0007]進一步地,所述S4識別并獲取網頁中的相關數據與錯誤數據包括:控制臺錯誤數據與信息;該網頁累計請求數據;DOM內容以及本頁面中所有的CSS與JS的外部引用。
[0008]由上述內容可知,本專利技術提供的一種基于瀏覽器內核的網頁獲取系統解決了定向抓取網頁內容變化,并上報問題,分流處理;解決了原有技術中操作繁瑣,消耗成本與時間較高以及效率較低的問題。
附圖說明
[0009]圖1為本專利技術提供的一種基于瀏覽器內核的網頁獲取系統的邏輯結構圖。
具體實施方式
[0010]以下結合附圖對本專利技術的實施方法進行詳細說明,所描述的僅為部分實施例,并非全部實施例,為了清楚的目的,在附圖及說明中省略了與本專利技術無關的表示及描述。
[0011]依據圖1所示,本專利技術提供的一種基于瀏覽器內核的網頁獲取系統的邏輯結構流程如下。
[0012]首先,獲取所需網頁的站點,在打開該網頁之前將代碼的介入周期注入,并將代碼內容存入瀏覽器內存中。其中,注入該站點的代碼腳本將進行閉包處理,僅留有API接口,代碼內的命名大小寫采用冷偏,防止數據出現串流。
[0013]然后,打開該網頁在瀏覽視角到達標記位置時,網頁將自動加載下頁內容,自動識別滾動的DOM標簽區域,并記錄第一個區域的元素個數,并控制瀏覽器向下滾動。其中,當區域容器內的元素個數 fn=n*5時,停止控制瀏覽器滾動條,瀏覽器依照Y=300px/次向上滾動,并記錄每次的截圖,當獲取的截圖出現重合、邊緣元素相等的情況時,進行重合拼接處理。
[0014]其中,錄屏是通過調用瀏覽器內核中的WEBAPI庫中的MediaRecorder對該網頁中的內容進行錄制;截屏是通過調用瀏覽器內核中的canvas庫,使用html2canvas.js搭配Canvas2Image.js倆個JS代碼對該網頁中的內容進行截屏并對截屏內容進行清晰化處理;獲取截屏圖片的拼接是通過在瀏覽器截圖的時候調用內核API,實現web瀏覽器的視圖切換,即實現多個視圖的截圖獲取,并記錄編號,拼接的時候,先生成一個空白的畫布,再按照編號順序將多個視圖的截圖依次拼接到畫布中。
[0015]接著,獲取網頁的樣點,依照此前獲取此網頁的時間與該網頁站點的最后更改時間的對比判定是否發生內容變更。其中,若發生變更,則先獲取網頁內的所有元素,制成形如000101021數據格式的數字序列矩陣;隨后,依照每5px*5px區域記錄x1=3px,y1=2px(相對位置)的像素值獲取網頁內容截圖;再者,獲取網站全地址、網站的來源地址以及網頁標題的數據信息;最后將所有獲取到的數據值進行鏈接,提取出數據摘要。
[0016]再然后,識別并獲取網頁中的相關數據與錯誤數據,并將識別與獲取到的數據自動上報,以便進行網頁還原。其中,獲取的網頁中的相關數據與錯誤數據包括:控制臺錯誤數據與信息;該網頁累計請求數據;DOM內容以及本頁面中所有的CSS與JS的外部引用。
[0017]隨后,將上傳的數據生成工單形式轉接至處理人手中,優先選擇上次匹配的處理人,判斷該處理人是否在崗且在處理中的處理單是否少于5單:若該處理人在崗且手中處理單少于5單,則直接交于該處理人進行處理;若以上倆個條件有一項未滿足,則輪轉至下一處理人并進行再判定;若該工單的輪轉的次數大于5次后,則該工單自動轉為服務臺。
[0018]以上所述,僅為本專利技術較佳的具體實施方式,但本專利技術的保護范圍并不局限于此,任何熟悉本
的技術人員在本專利技術揭露的技術范圍內,根據本專利技術的技術方案及其專利技術構思加以等同替換或改變,都應涵蓋在本專利技術的保護范圍之內。
本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于瀏覽器內核的網頁獲取系統,其特征在于,包括:S1.獲取網頁站點,并注入代碼的介入周期;S2.針對網頁內容進行錄制或滾動截屏;S3.獲取網頁樣點,識別網頁是否變更;S4.識別并獲取網頁中的相關數據與錯誤數據,并自動上報、還原;S5.將獲取的網頁中的相關數據與錯誤數據生成工單,并交于處理人處理。2.根據權利要求1所述的一種基于瀏覽器內核的網頁獲取系統,其特征在于,所述S2在瀏覽視角到達標記位置時,網頁將自動加載下頁內容;所述S2自動識別滾動的DOM標簽區域,并記錄第一個區域的元素個數,并控制瀏覽器向下滾動;所述S2瀏覽器依照Y=300px/次的頻率進行滾動加載,當區域內的元素fn=n*5時,瀏覽器將停...
【專利技術屬性】
技術研發人員:韓金洋,蓋志國,林博,李海濱,蔡軍利,王敏,侯立國,朱秀娟,李曉鶴,李衛東,李紀明,宋淑杰,崔宇,
申請(專利權)人:啟明信息技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。