一種基于瀏覽器內核的網頁獲取系統技術方案

技術編號：36695505 閱讀：15 留言：0更新日期：2023-02-27 20:07

本發明專利技術公開了一種基于瀏覽器內核的網頁獲取系統，包括：S1.獲取網頁站點，并注入代碼的介入周期；S2.針對網頁內容進行錄制或滾動截屏；S3.獲取網頁樣點，識別網頁是否變更；S4.識別并獲取網頁中的相關數據與錯誤數據，并自動上報、還原；S5.將獲取的網頁中的相關數據與錯誤數據生成工單，并交于處理人處理。本發明專利技術提供的一種基于瀏覽器內核的網頁獲取系統解決了定向抓取網頁內容變化，并上報問題，分流處理；解決了原有技術中操作繁瑣，消耗成本與時間較高以及效率較低的問題。時間較高以及效率較低的問題。時間較高以及效率較低的問題。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于瀏覽器內核的網頁獲取系統

[0001]本專利技術涉及信息處理
，特別是一種基于瀏覽器內核的網頁獲取系統。

技術介紹

[0002]近年來，隨著科技水平的不斷發展，網絡也逐漸遍布于世界的各個角落，隨之網絡上的信息也出現爆發式的增長。網絡上信息的主要傳播方式是網頁，網頁是一個包含HTML標簽的純文本文件，它可以存放在世界某個角落的某一臺計算機中，是萬維網中的一“頁”，是超文本標記語言格式（標準通用標記語言的一個應用，文件擴展名為.html或.htm）。
[0003]目前，現有的網頁信息抓取技術過于繁瑣，所需成本與時間消耗較高，效率較低，如：需通過人工控制瀏覽器去識別網頁元素，網頁標題，站點信息以及網頁變化；提交報修時，站點信息需要人工抓取，或取不全，達不到運維能力等等。

技術實現思路

[0004]本專利技術提供一種基于瀏覽器內核的網頁獲取系統，包括：S1.獲取網頁站點，并注入代碼的介入周期；S2.針對網頁內容進行錄制或滾動截屏；S3.獲取網頁樣點，識別網頁是否變更；S4.識別并獲取網頁中的相關數據與錯誤數據，并自動上報、還原；S5.將獲取的網頁中的相關數據與錯誤數據生成工單，并交于處理人處理。
[0005]進一步地，所述S2在瀏覽視角到達標記位置時，網頁將自動加載下頁內容；所述S2自動識別滾動的DOM標簽區域，并記錄第一個區域的元素個數，并控制瀏覽器向下滾動；所述S2瀏覽器依照Y=300px/次的頻率進行滾動加載，當區域內的元素fn=n*5時，瀏覽器將停止滾動；所述S2在滾動截...

【技術保護點】

【技術特征摘要】
1.一種基于瀏覽器內核的網頁獲取系統，其特征在于，包括：S1.獲取網頁站點，并注入代碼的介入周期；S2.針對網頁內容進行錄制或滾動截屏；S3.獲取網頁樣點，識別網頁是否變更；S4.識別并獲取網頁中的相關數據與錯誤數據，并自動上報、還原；S5.將獲取的網頁中的相關數據與錯誤數據生成工單，并交于處理人處理。2.根據權利要求1所述的一種基于瀏覽器內核的網頁獲取系統，其特征在于，所述S2在瀏覽視角到達標記位置時，網頁將自動加載下頁內容；所述S2自動識別滾動的DOM標簽區域，并記錄第一個區域的元素個數，并控制瀏覽器向下滾動；所述S2瀏覽器依照Y=300px/次的頻率進行滾動加載，當區域內的元素fn=n*5時，瀏覽器將停...

【專利技術屬性】
技術研發人員：韓金洋，蓋志國，林博，李海濱，蔡軍利，王敏，侯立國，朱秀娟，李曉鶴，李衛東，李紀明，宋淑杰，崔宇，
申請(專利權)人：啟明信息技術股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術