• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    互聯網實時計算的方法和系統技術方案

    技術編號:8271500 閱讀:183 留言:0更新日期:2013-01-31 03:44
    本發明專利技術公開了一種互聯網實時計算的方法和系統。根據用戶在網站上的操作,前端服務器生成指定格式的消息日志并發送所生成的指定格式的消息日志;中心消息日志收發處理單元接收前端服務器發送的消息日志,并根據消息日志的屬性,分發消息日志到后端的相應的實時計算模型單元中;實時計算模型單元對接收到的消息日志進行預定的計算,得出實時熱點內容排行榜、活躍用戶、垃圾消息、非法消息等結果,把計算結果放在內存或者磁盤中,或將結果作為API供其他程序調用。本發明專利技術的互聯網實時計算的方法和系統沒有延時性,能第一時間反應出當前應用的熱點,方案包括了數據收集、數據分發、數據分析建模、結果存儲以及對外服務,是一個完整的解決方案。

    【技術實現步驟摘要】
    本專利技術涉及互聯網數據挖掘
    ,尤其涉及一種互聯網實時計算的方法和系統
    技術介紹
    隨著facebook、twitter、微博、博客等web2. O新型媒體的發展,對消息的實時性要求越來越高,與此同時,對信息內容的分析也越來越重要,越來越實時。為了滿足互聯網的實時性熱點分析、活躍用戶分析、輿情監控、垃圾信息處理、非法信息過濾等需求,作為實時信息內容的產生方以及第三方,均對實時數據挖掘分析展開了大量的研究和系統設計。現代互聯網數據挖掘技術,分為實時計算和離線計算兩種。離線計算就是目前常用的計算方式,計算的源是基于用戶生成的系統日志進行計算,并通過分類、聚類等數據模型進行相關的統計而得出排行榜、用戶行為習慣、相關的熱點等數據。當前離線系統最常用 的是兩種,一種是小數據的單機的數據分析,可以通過簡單的腳本程序、分析出想要的結果數據,一種是大數據的分布式的數據挖掘,大數據一般采用hadoop、hdfs、hbase等國外開源成型的解決方案,用于處理海量的離線數據,并將處理結果的數據,存放在數據庫、緩存中,給以后的前端應用使用。而實時計算,是收集互聯網用戶實時產生的數據,并直接應用相關的數據模型進行建模,得出在當前時間點或者在當前一段時間內,用戶以及整個系統的排行榜、實時熱點、用戶偏好、輿論走向等數據。常用的實時計算框架是通常是采用Yahoo開源的S4、Twitter開源的Storm,還有Esper, Streambase, Hstreaming,以及scribe、rainbird等開源技術,基本步驟是將前端日志實時發送到后端處理服務器,后端再寫程序,進行相關的實時計算。離線計算有延時性,不能很快反應當前產品的熱點,比如微博上熱議一個事情,它的引爆時間已經縮短到幾十分鐘,離線計算已經不太符合當今互聯網的需求,我們需要更實時的計算方法和模式。另外,現有的實時計算模式,一般只做到數據收集這一層,而數據分析建模、排行建模、數據分析結果對外高速接口并不涉及,所以,目前的實時計算并不是一個體系,不是一個完整的系統。
    技術實現思路
    根據本專利技術的一方面,提供了一種互聯網實時計算的方法,包括根據用戶在網站上的操作,前端服務器生成指定格式的消息日志并發送所生成的指定格式的消息日志;中心消息日志收發處理單元接收前端服務器發送的消息日志,并根據消息日志的屬性,分發消息日志到后端的相應的實時計算模型單元中;實時計算模型單元對接收到的消息日志進行預定的計算,把計算結果放在內存或者磁盤中,或將結果作為API (Application Programming Interface,應用程序編程接口)供其他程序調用。其中,所述指定格式的消息日志包含了所述實時計算模型單元所需要的元數據,元數據具體為用戶的UID、或操作時間、或操作類型、或文章內容、或文章類型、或文章的關鍵詞等。其中,所述實時計算模型單元可以是實時活躍用戶分析模型。另外,所述實時計算模型單元還可以是實時熱點排行模型單元,實時熱點排行模型單元對接收到的消息日志進行預定的計算具體為采用實時熱點排行榜算法,該算法采用時間片分割方法,把時間分為各個長度的自然時間段,多維度反應當前數據的熱點排行。其中,實時熱點排行榜算法為TF/IDF、隱馬爾可夫鏈、決策樹、貝葉斯算法中的一種或幾種。 此外,實時計算模型單元還可以是實時反垃圾模型單元;或者,實時計算模型單元也可以是實時非法信息過濾模型單元。互聯網的數據有高峰值、低峰值之分,離線計算,可以降低后端計算的峰值,系統運行更平穩;而實時計算,后端分析服務器也會有高地峰值,為了保證后端服務器的穩定性,中心消息日志收發處理單元以預定速度收集和分發消息日志到實時計算模型單元。根據本專利技術的另一方面,提供了一種互聯網實時計算系統,該系統包括前端服務器,用于根據用戶在網站上的操作,生成指定格式的消息日志,并將生成的指定格式的消息日志進行發送;中心消息日志收發處理單元,用于接收所述前端服務器發送的消息日志,并根據消息日志的屬性,分發消息日志到后端相應的實時計算模型單元中;實時計算模型單元,用于對接收到的消息日志進行預定的計算,把計算結果放在內存或者磁盤中,或將結果作為API供其他程序調用。進一步地,實時計算模型單元為實時熱點排行模型;實時計算模型單元對接收到的消息日志進行預定的計算具體為采用實時熱點排行榜算法,該算法采用時間片分割方法,把時間分為各個長度的自然時間段,多維度反應當前數據的熱點排行。進一步地,前端服務器為多個;以及實時計算模型單元還可以具體為實時活躍用戶分析模型單元、實時熱點排行模型單元、實時反垃圾模型單元或者實時非法信息過濾模型單元。本專利技術的上述互聯網實時計算的方法和系統包括了實時計算過程的三個階段數據的產生與收集階段、傳輸與分析處理階段、存儲對對外提供服務階段。前端服務器收集消息日志,發往中心的日志收集器,中心日志分析器進行消息日志的分發,實時離線處理模型接收消息日志并進行計算,得出實時分析排行榜、活躍用戶、垃圾消息、非法消息,并將結果作為API供其他程序調用。本專利技術的互聯網實時計算的方法和系統沒有延時性,能第一時間反應出當前應用的熱點,實現互聯網實時熱點排行榜、輿情監控、非法信息過濾、用戶熱點分析的功能需求,同時,該方法和系統包括了數據收集、數據分發、數據分析建模、數據分析結果對外高速API接口,這是一個整體的實時計算體系和完整的實時計算解決方案。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,以下將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹。顯而易見地,以下描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員而言,還可以根據這些附圖所示實施例得到其它的實施例及其附圖。圖I為本專利技術實施例一的方法流程圖;圖2為本專利技術實施例二的方法流程圖;圖3為本專利技術實施例三的方法流程圖;圖4為本專利技術的互聯網實時計算的系統框架圖。具體實施方式 以下將結合附圖對本專利技術各實施例的技術方案進行清楚、完整的描述,顯然,所描述的實施例僅僅是本專利技術的一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動的前提下所得到的所有其它實施例,都屬于本專利技術所保護的范圍。以新浪博客應用為例,對新浪博客的實時計算的方法,包括了以下的步驟根據用戶在網站上的操作,比如發表博文、修改博文、轉載博文、評論、收藏、瀏覽博文等等操作,前端服務器生成指定格式的消息日志并發送所生成的指定格式的消息日志;中心消息日志收發處理單元包括消息日志收集器和消息日志分發器,消息日志收集器接收前端服務器發送的消息日志;消息日志分發器根據消息日志的屬性,分發消息日志到后端的相應的實時計算模型單元中;實時計算模型單元對接收到的消息日志進行預定的計算;計算結果放在內存或者磁盤中,或將結果作為API供其他程序調用。下面結合三個實施例來詳細描述新浪博客應用的實時計算方法。實施例一新浪博客實時活躍用戶排名參見圖1,步驟101,首先,在新浪博客的前端服務器部署消息收集代碼,用戶的所有操作比如發表博文、修改博文、轉載博文、評論、收藏、瀏覽博文等等操作,生成指定格式的消息日志,該消息日志里面包含了后端操作需要的元數據,比如用戶的ID,當前操作的時間,操作的類型等,本文檔來自技高網
    ...

    【技術保護點】
    一種互聯網實時計算方法,包括:根據用戶在網站上的操作,前端服務器生成指定格式的消息日志并發送所生成的指定格式的消息日志;中心消息日志收發處理單元接收所述前端服務器發送的消息日志,并根據消息日志的屬性,分發消息日志到后端的相應的實時計算模型單元中;所述實時計算模型單元對接收到的消息日志進行預定的計算,把計算結果放在內存或者磁盤中,或將結果作為API供其他程序調用。

    【技術特征摘要】
    1.一種互聯網實時計算方法,包括 根據用戶在網站上的操作,前端服務器生成指定格式的消息日志并發送所生成的指定格式的消息日志; 中心消息日志收發處理單元接收所述前端服務器發送的消息日志,并根據消息日志的屬性,分發消息日志到后端的相應的實時計算模型單元中; 所述實時計算模型單元對接收到的消息日志進行預定的計算,把計算結果放在內存或者磁盤中,或將結果作為API供其他程序調用。2.如權利要求I所述的方法,其特征在于,所述指定格式的消息日志包含了所述實時計算模型單元所需要的元數據,所述元數據具體為用戶的MD、或操作時間、或操作類型、或文章內容等。3.如權利要求I所述的方法,其特征在于,所述實時計算模型單元為實時活躍用戶分析模型。4.如權利要求I所述的方法,其特征在于,所述實時計算模型單元為實時熱點排行模型單元;以及 所述實時計算模型單元對接收到的消息日志進行預定的計算具體為 所述實時熱點排行模型,采用實時熱點排行榜算法,所述算法采用時間片分割方法,把時間分為各個長度的自然時間段,多維度反應當前數據的熱點排行。5.如權利要求4所述的方法,其特征在于,所述實時熱點排行榜算法為TF/IDF、隱馬爾可夫鏈、決策樹、貝葉斯算法中的一種或幾種。6.如權利要求I所述的方法,其特征在于,所述實...

    【專利技術屬性】
    技術研發人員:何躍湯曉剛
    申請(專利權)人:新浪網技術中國有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码熟妇αⅴ人妻又粗又大| 中文一国产一无码一日韩| 免费A级毛片无码视频| 日韩精品人妻系列无码专区| 18禁免费无码无遮挡不卡网站| 色综合久久久无码中文字幕波多| 一本一道AV无码中文字幕| 亚洲国产av高清无码| 亚洲精品无码高潮喷水在线| 亚洲日韩看片无码电影| 无码H肉动漫在线观看| 国产日产欧洲无码视频| 久久久久亚洲av无码专区喷水| 国产亚洲精品无码专区| 成人无码精品一区二区三区| 蜜桃无码一区二区三区| 国产品无码一区二区三区在线蜜桃| 国产AV无码专区亚洲AV蜜芽| 老司机亚洲精品影院无码| 国产精品无码永久免费888| 精品国产性色无码AV网站| 69堂人成无码免费视频果冻传媒| 无码人妻精品一区二区三区夜夜嗨 | 中文字幕av无码专区第一页| 老司机无码精品A| 亚洲一区二区无码偷拍| 人妻丰满熟妇无码区免费| 久久精品无码精品免费专区| 国产精品99精品无码视亚| 中文字幕av无码不卡免费| 东京热加勒比无码少妇| 精品久久久久久无码人妻蜜桃| 曰韩无码无遮挡A级毛片| 无码夜色一区二区三区| 亚洲另类无码专区首页| 少妇无码AV无码专区线| 无码午夜人妻一区二区不卡视频| 亚洲av无码成人精品区一本二本 | 国产午夜激无码av毛片| 精品久久久久久无码不卡| 中日韩亚洲人成无码网站|