本發明專利技術涉及一種網絡信息監控分析系統,屬于網絡信息化領域。本發明專利技術根據現今應用最廣泛的HTML網頁信息的特點,在對現有信息搜集、預處理和自動分類等網絡信息處理技術進行深入的分析與研究的基礎上,針對目前信息搜集技術的不足,設計開發了一個基于信息領域的網絡信息監控分析系統,實現了通過互聯網實時定向地自動捕捉多個門戶網站以及專門網站關于專業領域的“有用”信息的功能。工作流程為:(1)由“網絡信息收集子系統”采集URL、錨文本、網頁,并對采集回的網頁進行清洗;(2)“智能分析預歸類子系統”將系統中的網頁進行分類,并根據閥值過濾無用信息;(3)“自動匯總檢索子系統”完成站內檢索、自動生成報表功能。
【技術實現步驟摘要】
本專利技術涉及一種網絡信息監控分析系統,屬于網絡信息化領域。
技術介紹
自互聯網誕生以來,Internet已經發展成為擁有近億用戶和數億頁面的巨大的全球化信息倉庫,而且其信息容量仍在以指數形式飛速地增長。從互聯網中獲取信息已成為個人獲取知識的主要方法和重要手段,也成為當前企業獲取情報的重要途徑,但是,面對浩如煙海的網絡信息,傳統的人工搜集和處理等方法都已難以勝任。為此,國內外在信息搜索領域做了大量研究,并開發了多種搜索引擎,如Baidu、Google,Yahoo,Lycos等。從某種程度上這些搜索引擎提高了搜索的效率和速度,但仍然存 在著很大的局限性,最突出表現在以下幾個方面首先,由于采用的是全文檢索或關鍵詞檢索的方式,基于字面的檢索機制造成實際檢索結果與用戶需求之間的偏差,即檢索返回“有用”信息太少,“垃圾”信息太多,稱之為Rich Data Poor Information的問題;其次,網絡搜索引擎需面對廣泛的知識領域,而針對某一特殊領域因沒有足夠的背景知識,導致搜索到大量無關的網頁,具有較大相關性的網頁卻很少;最后,檢索的速度和效率太低,并且不能保證信息的時效性和權威性,以上這些的不足,是信息搜集的非常嚴重、甚至是致命的弱點。針對以上問題,各類基于特定領域的互聯網信息搜集工具應運而生。基于特定領域的高度目標化、專業化、針對性以及對對特定范圍的網絡信息的覆蓋率高等優點,有效地彌補了以往通用型搜索工具的缺點,因此專注于某個特殊領域的信息的獲取技術就猶如專業網站一樣,愈加受到各界的重視,在整個信息搜索領域所占的地位也越來越重要。
技術實現思路
本專利技術根據現今應用最廣泛的HTML網頁信息的特點,在對現有信息搜集、預處理和自動分類等網絡信息處理技術進行深入的分析與研究的基礎上,針對目前信息搜集技術的不足,設計開發了一個基于信息領域的網絡信息監控分析系統,實現了通過互聯網實時定向地自動捕捉多個門戶網站以及專門網站關于專業領域的“有用”信息的功能。本專利技術涉及一種網絡信息監控分析系統,其設計工作流程可以如下所述I、系統框架設計系統從互聯網快速、有效地自動搜集“有用”信息,并對搜集回的網頁信息進行預處理、分類并存儲入指定的數據庫。本系統由三個子系統組成,分別“網絡信息收集子系統”、“智能分析預歸類子系統”、“自動匯總檢索子系統”。每個子系統分別處理不同的功能,根據系統的性能需求而分開。網絡信息收集子系統主要功能是搜索并存儲監控范圍內網絡媒體每日不斷更新的最新信息,保證信息收集的實時性、全面性。智能分析預歸類子系統是大規模信息處理重要的應用技術之一,主要功能是根據文本分類、中文分詞等技術對收集到的網頁信息自動進行分類。自動匯總檢索子系統主要包括站內檢索和系統智能分析報表,實現站內檢索和及時生成報表的功能。系統工作流程(I)由“網絡信息收集子系統”采集URL、錨文本、網頁,并對采集回的網頁進行清洗(2) “智能分析預歸類子系統”將系統中的網頁進行分類,并根據閥值過濾無用信息(3) “自動匯總檢索子系統”完成站內檢索、自動生成報表功能。2、子系統的設計與實現 網絡信息收集子系統網絡信息收集子系統主要功能是搜索并存儲監控范圍內網絡媒體每日不斷更新的最新信息,保證信息收集的實時性、全面性。該子系統采用了交換模式的并行結構,應用了信息采集、網頁清洗等技術,滿足了系統抓取網站信息從網站發布到系統抓取時間不超過I分鐘,抓取論壇信息從帖子發布到系統抓取的時候不超過I分鐘的實時性需求。智能分析預歸類子系統智能分析預歸類子系統是大規模信息處理重要的應用技術之一,應用中文文本分類、中文分詞等技術,采用了類中心向量分類算法,實現了實時地將系統信息自動歸類、過濾無用信息等功能。自動匯總檢索子系統自動檢索子系統,應用檢索與自動報表生成等技術,實現了站內檢索與及時生成報表的目的,主要功能包括站內檢索功能和系統智能分析報表功能。3、數據庫設計根據上述對信息結構的分析,可以得到數據庫中表的模式,其中用戶信息表、權限表、信息源表設計如下所述(I)信息源表,對采集到的信息保存到本地數據庫主表,而預處理、分類的信息源也是在對應這個表進行修改。(2)用戶信息表,注冊合法用戶的相關信息。(3)用戶權限表,對用戶信息表的用戶賦權信息,這個表直接和用戶信息表相關聯。(4)權限表,提供本系統的存在的權限級別信息,提供給用戶權限信息的權限選擇。具體實施例方式實施例I關于汽車行業的網絡信息收集分析(I)由“網絡信息收集子系統”采集汽車行業網站或者門戶網站的汽車頻道URL、錨文本、網頁。(2)對采集回的網頁進行清洗,剔除掉網頁中噪音內容的干擾,把網頁的主題內容作為處理對象,提高處理結果的準確性;其次,簡化網頁內標簽結構的復雜性并減少網頁的大小,從而節省后續處理過程的時間和空間開銷。(3) “智能分析預歸類子系統”將系統中采集的網頁進行分類,并根據閥值過濾無用信息(4) “自動匯總檢索子系統”完成站內檢索、自動生成報表功能。實施例2網絡信息收集子系統實施過程為了實現網絡信息的自動收集功能,我們將網絡信息收集子系統的整個處理過程分成四步初始URL選擇,網頁采集、網頁預處理、數據存儲。該子系統的主要工作流程為首先由Spider根據初始URL選擇和主題定義,從Web上采集網頁,其次將采集到的頁面進行預處理后,將結果送入指定的數據庫中存儲。(I)初始URL的選擇一般網頁收集系統是從一個種子URL集出發,通過Web協議向Web上所需的頁面·擴展的。信息收集系統需要選擇質量較高的主題URL作為初始種子URL。本實施例選擇由人工定義種子URL集,主要工作步驟如下第一步工作是要確定網絡信息監控分析系統的“監控范圍”,也就是確定收集哪些網站中的網頁信息。第二步工作就是收集被“監控”網站入口,即種子URL集。(2)網頁采集網頁采集器,主要由兩個部分組成,即控制模塊和抓取模塊。控制模塊主要按照抓取策略對需要抓取的URL進行排序,為抓取模塊提供需要抓取的URL序列,并對抓取模塊下載的網頁進行分析和存儲。抓取模塊從控制模塊獲得需要下載的URL,從互聯網下載相應的頁面,進而提供給抓取控制模塊處理。(3)網頁預處理首先,將整個網頁劃分成多個不同的塊;其次,將網頁劃分為多個塊之后,分析每個塊的重要程度,不重要的內容塊便是噪曰 網頁清洗設計流程先利用HTML Parser解析器把半結構化的HTML樣本頁面轉化為結構化的DOM樹結構,然后對它進行深度優先遍歷并進行清洗,從而得到保留原Web頁面格式的結果。(4)數據存儲將清洗后的網頁,存儲在指定的數據庫當中。本文檔來自技高網...
【技術保護點】
一種網絡信息監控分析系統,屬于網絡信息化領域,其特征在于,網絡信息監控分析系統:1)該系統成功的解決了針對特定領域信息收集的難題,實現了智能化的信息搜集,成功地為企業競爭情報的收集提供服務。2)提高了網絡信息資源的集中度,有利于監控人員同時監控數個網站,解決了傳統網站監控方法存在的人力資源消耗的問題。3)在抓取算法實現中采用了非遞歸多線程方式的抓取算法,較大地提高了抓取的效率,改進了網頁收集子系統性能;并在此基礎上增加了利用錨文本等方法過濾URL,有效地提高了網頁采集的準確率和信息的有效性。4)在網絡信息收集子系統中,提出了并行結構新概念,并在并行結構的基礎上建立了交換模式,有效地提高了信息采集速度,減緩了網站服務器的壓力,同時有效地解決了并行采集結構中跨區鏈接導致的重復采集或不采集造成的信息遺漏等問題。5)研究了文本分類技術,在提取文本特征項時,增加提取了相應網頁的錨文本,實現了網頁分類技術的改進。
【技術特征摘要】
1. 一種網絡信息監控分析系統,屬于網絡信息化領域,其特征在于,網絡信息監控分析系統 1)該系統成功的解決了針對特定領域信息收集的難題,實現了智能化的信息搜集,成功地為企業競爭情報的收集提供服務。2)提高了網絡信息資源的集中度,有利于監控人員同時監控數個網站,解決了傳統網站監控方法存在的人力資源消耗的問題。3)在抓取算法實現中采用了非遞歸多線程方式的抓取算法,較大地提高了抓取的效率,改進了網頁收集子系統性...
【專利技術屬性】
技術研發人員:龐兵,
申請(專利權)人:張家港凱納信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。