• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    并行化分布式網絡輿情數據管理方法及系統技術方案

    技術編號:8366807 閱讀:224 留言:0更新日期:2013-02-28 05:27
    本發明專利技術提出一種并行化分布式網絡輿情數據管理方法及系統,其中該方法包括:對互聯網數據進行抓??;對互聯網數據進行抽取;存儲和展示抓取和抽取得到的互聯網輿情數據;以及對互聯網輿情數據的索引和查詢進行優化。本發明專利技術的方法和系統具有效率較高的優點。

    【技術實現步驟摘要】

    本專利技術屬于計算機應用
    和信息
    ,特別涉及一種并行化分布式網絡輿情數據管理方法及系統。
    技術介紹
    隨著互聯網應用的廣泛普及,數據的海量性在各方面的體現越來越突出,從網絡流量數據,到移動通信用戶行為記錄;從搜索引擎的日志數據,到銀行的客戶操作記錄,等等。這些海量信息與生俱來的數字化與網絡化性質,人們在共享海量網絡信息的同時,也面臨著海量數據存儲、訪問和管理問題。以往當人們需要存儲結構化數據時,數據庫通常是首選的解決方案,在數據規模不大時,其可以提供便捷、穩定的服務。然而隨著數據量的增長,特別是當Web時代來臨后,針對動輒TB級的龐大數據,海量數據的存儲和訪問成為了系統設計的瓶頸問題?!?br>技術實現思路
    本專利技術旨在解決海量數據的存儲和訪問數據庫設計瓶頸問題,并對數據庫及數據操作進行優化設計。本專利技術的一個目的在于提出一種效率較高的并行化分布式網絡輿情數據管理方法。本專利技術的并行化分布式網絡輿情數據管理方法,包括對互聯網數據進行抓??;對所述互聯網數據進行抽??;存儲和展示抓取和抽取得到的互聯網輿情數據;以及對所述互聯網輿情數據的索引和查詢進行優化。在本專利技術的方法的一個實施例中,所述對互聯網數據進行抓取包括用戶設定網站的類型、所屬行業、所要抓取索引頁的鏈接;然后將所述索引頁對應的網頁信息抓取的正則配置網頁導入數據庫;以及讀取所述索引頁的完整抓取配置信息,對所述索引頁下的所有全文和評論進行抓取,并對抓取的網頁進行標定和記錄。在本專利技術的方法的一個實施例中,所述對所述互聯網數據進行抽取包括將所述索引頁對應的網頁信息抽取正則配置文件導入數據庫;以及讀取所述索引頁下正文、評論的完整抽取配置信息,進行所述索引頁下的所有正文及評論的抽取,并對抽取的網頁進行標定和記錄。在本專利技術的方法的一個實施例中,所述數據庫的讀操作和寫操作在不同數據庫服務器中進行。本專利技術的另一個目的在于提出一種效率較高的并行化分布式網絡輿情數據管理系統。本專利技術的并行化分布式網絡輿情數據管理系統,包括數據抓取模塊,所述數據抓取模塊用于對互聯網數據進行抓取;數據抽取模塊,所述數據抽取模塊用于對所述互聯網數據進行抽??;存儲模塊,所述存儲模塊用于存儲和展示抓取和抽取得到的互聯網輿情數據;以及優化模塊,所述優化模塊用于對所述互聯網輿情數據的索引和查詢進行優化。在本專利技術的系統的一個實施例中,所述數據抓取模塊包括用戶設定模塊,所述用戶設定模塊用于用戶設定網站的類型、所屬行業、所要抓取索引頁的鏈接;第一導入模塊,所述第一導入模塊用于將所述索引頁對應的網頁信息抓取的正則配置網頁導入數據庫;以及抓取及標定子模塊,所述抓取及標定子模塊用于讀取所述索引頁的完整抓取配置信息,對所述索引頁下的所有全文和評論進行抓取,并對抓取的網頁進行標定和記錄。在本專利技術的系統的一個實施例中,所述數據抽取模塊包括第二導入模塊,所述第二導入模塊用于將所述索引頁對應的網頁信息抽取正則配置文件導入數據庫;以及抽取及標定子模塊,裝置抽取及標定子模塊用于讀取所述索引頁下正文、評論的完整抽取配置信息,進行所述索引頁下的所有正文及評論的抽取,并對抽取的網頁進行標定和記錄。在本專利技術的系統的一個實施例中,所述數據庫的讀操作和寫操作在不同數據庫服 務器中進行。本專利技術借鑒當前通用的負載均衡技術、數據庫的讀寫分離技術、數據庫拆分技術,并結合項目自身的特點對數據庫的設計進行優化處理,達到將數據庫建立在一臺服務器上,客戶端運行在各自的服務器上,只將處理后的數據存儲到數據庫服務器上;也可以將現有數據庫進行分拆,建立多個服務器上,公共的基礎信息和關聯信息可以通過數據庫同步和分發技術實現數據的一致性。本專利技術可以完成數據抓取所需配置的編輯、刪除管理功能;數據抽取所需配置的編輯、刪除管理功能;對抓取的網頁進行標定和記錄,對抽取的信息進行結構化的數據存儲。為上層系統提供單臺服務器部署或多臺服務器分布式部署兩種部署方式。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中圖I為本專利技術的并行化分布式網絡輿情數據管理方法的流程圖;圖2為本專利技術的并行化分布式網絡輿情數據管理系統的結構框圖;圖3為本專利技術的方法和系統中的數據結構圖;圖4為數據抓取部分數據結構圖;圖5為數據抽取部分數據結構圖;圖6為數據存儲和展示數據結構圖;和圖7為程序接口結構圖。具體實施例方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本專利技術,而不能理解為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內”、“外”、“順時針”、“逆時針”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本專利技術和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本專利技術的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本專利技術的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。在本專利技術中,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元 件內部的連通。對于本領域的普通技術人員而言,可以根據具體情況理解上述術語在本專利技術中的具體含義。在本專利技術中,除非另有明確的規定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或僅僅表示第一特征水平高度小于第二特征。本專利技術旨在解決海量數據的存儲和訪問數據庫設計瓶頸問題,并對數據庫及數據操作進行優化設計。本專利技術的一個目的在于提出一種效率較高的并行化分布式網絡輿情數據管理方法。如圖I所示,該方法包括S1.對互聯網數據進行抓??;S2.對互聯網數據進行抽?。籗3.存儲和展示抓取和抽取得到的互聯網輿情數據;以及S4.對互聯網輿情數據的索引和查詢進行優化。在本專利技術的方法的一個實施例中,步驟SI進一步包括用戶設定網站的類型、所屬行業、所要抓取索引頁的鏈接;然后將索引頁對應的網頁信息抓取的正則配置網頁導入數據庫;以及讀取索引頁的完整抓取配置信息,對索引頁下的所有全文和評論進行抓取,并對抓取的網頁進行標定和記錄。在本專利技術的方法的本文檔來自技高網...

    【技術保護點】
    一種并行化分布式網絡輿情數據管理方法,其特征在于,包括:對互聯網數據進行抓??;對所述互聯網數據進行抽取;存儲和展示抓取和抽取得到的互聯網輿情數據;以及對所述互聯網輿情數據的索引和查詢進行優化。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:楊睿塵
    申請(專利權)人:北京騰逸科技發展有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码专区—VA亚洲V天堂| 精品韩国亚洲av无码不卡区| 午夜无码伦费影视在线观看| 亚洲日韩精品无码专区网站| 久久亚洲AV永久无码精品| 色偷偷一区二区无码视频| 黑人巨大无码中文字幕无码| 亚洲av日韩av无码| 久久久久亚洲精品无码网址 | 天堂无码在线观看| 国产精品视频一区二区三区无码| 内射人妻无码色AV天堂| 亚洲中文字幕无码爆乳| 久久久无码中文字幕久... | 亚洲av无码专区在线电影天堂 | 成人毛片无码一区二区| 久久久久久久人妻无码中文字幕爆 | 亚洲色在线无码国产精品不卡 | 无码人妻AⅤ一区二区三区| 永久免费无码网站在线观看| 无码精品A∨在线观看免费| 亚洲Av无码专区国产乱码DVD| 亚洲最大av无码网址| 国产午夜激无码av毛片| 亚洲熟妇无码AV| 久久久久亚洲AV无码去区首| 精品一区二区三区无码免费视频| 午夜福利无码不卡在线观看| 国产精品无码午夜福利| 亚洲精品无码久久久久| 国内精品人妻无码久久久影院| 国产精品无码一区二区三级 | 野花在线无码视频在线播放| 无码视频在线播放一二三区| 免费无码午夜福利片69| 免费无码婬片aaa直播表情| 免费一区二区无码视频在线播放 | mm1313亚洲国产精品无码试看| 国产莉萝无码AV在线播放 | 成人av片无码免费天天看| 国产网红主播无码精品|