網絡信息監控分析系統技術方案

技術編號：8131085 閱讀：200 留言：0更新日期：2012-12-27 03:16

本發明專利技術涉及一種網絡信息監控分析系統，屬于網絡信息化領域。本發明專利技術根據現今應用最廣泛的HTML網頁信息的特點，在對現有信息搜集、預處理和自動分類等網絡信息處理技術進行深入的分析與研究的基礎上，針對目前信息搜集技術的不足，設計開發了一個基于信息領域的網絡信息監控分析系統，實現了通過互聯網實時定向地自動捕捉多個門戶網站以及專門網站關于專業領域的“有用”信息的功能。工作流程為：(1)由“網絡信息收集子系統”采集URL、錨文本、網頁，并對采集回的網頁進行清洗；(2)“智能分析預歸類子系統”將系統中的網頁進行分類，并根據閥值過濾無用信息；(3)“自動匯總檢索子系統”完成站內檢索、自動生成報表功能。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種網絡信息監控分析系統，屬于網絡信息化領域。
技術介紹
自互聯網誕生以來，Internet已經發展成為擁有近億用戶和數億頁面的巨大的全球化信息倉庫，而且其信息容量仍在以指數形式飛速地增長。從互聯網中獲取信息已成為個人獲取知識的主要方法和重要手段，也成為當前企業獲取情報的重要途徑，但是，面對浩如煙海的網絡信息，傳統的人工搜集和處理等方法都已難以勝任。為此，國內外在信息搜索領域做了大量研究，并開發了多種搜索引擎，如Baidu、Google,Yahoo,Lycos等。從某種程度上這些搜索引擎提高了搜索的效率和速度，但仍然存在著很大的局限性，最突出表現在以下幾個方面首先，由于采用的是全文檢索或關鍵詞檢索的方式，基于字面的檢索機制造成實際檢索結果與用戶需求之間的偏差，即檢索返回“有用”信息太少，“垃圾”信息太多，稱之為Rich Data Poor Information的問題；其次，網絡搜索引擎需面對廣泛的知識領域，而針對某一特殊領域因沒有足夠的背景知識，導致搜索到大量無關的網頁，具有較大相關性的網頁卻很少；最后，檢索的速度和效率太低，并且不能保證信息的時效性和權威性，以上這些的不足，是信息搜集的非常嚴重、甚至是致命的弱點。針對以上問題，各類基于特定領域的互聯網信息搜集工具應運而生。基于特定領域的高度目標化、專業化、針對性以及對對特定范圍的網絡信息的覆蓋率高等優點，有效地彌補了以往通用型搜索工具的缺點，因此專注于某個特殊領域的信息的獲取技術就猶如專業網站一樣，愈加受到各界的重視，在整個信息搜索領域所占的地位也越來越重要。
技術實現思路
本專利技術根據...

【技術保護點】
一種網絡信息監控分析系統，屬于網絡信息化領域，其特征在于，網絡信息監控分析系統：1)該系統成功的解決了針對特定領域信息收集的難題，實現了智能化的信息搜集，成功地為企業競爭情報的收集提供服務。2)提高了網絡信息資源的集中度，有利于監控人員同時監控數個網站，解決了傳統網站監控方法存在的人力資源消耗的問題。3)在抓取算法實現中采用了非遞歸多線程方式的抓取算法，較大地提高了抓取的效率，改進了網頁收集子系統性能；并在此基礎上增加了利用錨文本等方法過濾URL，有效地提高了網頁采集的準確率和信息的有效性。4)在網絡信息收集子系統中，提出了并行結構新概念，并在并行結構的基礎上建立了交換模式，有效地提高了信息采集速度，減緩了網站服務器的壓力，同時有效地解決了并行采集結構中跨區鏈接導致的重復采集或不采集造成的信息遺漏等問題。5)研究了文本分類技術，在提取文本特征項時，增加提取了相應網頁的錨文本，實現了網頁分類技術的改進。

【技術特征摘要】
1. 一種網絡信息監控分析系統，屬于網絡信息化領域，其特征在于，網絡信息監控分析系統 1)該系統成功的解決了針對特定領域信息收集的難題，實現了智能化的信息搜集，成功地為企業競爭情報的收集提供服務。2)提高了網絡信息資源的集中度，有利于監控人員同時監控數個網站，解決了傳統網站監控方法存在的人力資源消耗的問題。3)在抓取算法實現中采用了非遞歸多線程方式的抓取算法，較大地提高了抓取的效率，改進了網頁收集子系統性...

【專利技術屬性】
技術研發人員：龐兵，
申請(專利權)人：張家港凱納信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見