本發(fā)明專利技術(shù)公開了一種事件流的偏差檢測系統(tǒng)和/或方法。更具體地,本發(fā)明專利技術(shù)實(shí)施例涉及到更新進(jìn)來的事件流數(shù)據(jù)的短期和長期的統(tǒng)計(jì)量。在一些實(shí)施例中,至少基于所述長、短期統(tǒng)計(jì)量計(jì)算當(dāng)前的偏差。然后將當(dāng)前的偏差與閥值進(jìn)行比較。在某些實(shí)施例中,所述統(tǒng)計(jì)量需求的估算通過核密度估計(jì)完成。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)實(shí)施例涉及一種事件流的偏差檢測系統(tǒng)和/或方法。進(jìn)一步地,本專利技術(shù)實(shí)施例涉及一種復(fù)雜事件處理(Complex event processing, CEP)中的事件流可被分析和檢測偏差。在本專利技術(shù)的實(shí)施例中,CEP發(fā)動機(jī)接收一個或多個事件流,并利用基于密度的偏差檢測檢測事件流中的偏差。本專利技術(shù)實(shí)施例涉及到復(fù)雜事件處理、事件流處理、數(shù)據(jù)流處理和數(shù)據(jù)流挖掘等情況下的流向、異常值和/或偏向檢測。
技術(shù)介紹
復(fù)雜事件處理(Complex event processing, CEP) 一般適用于處理每個高效率情況下的瞬時事件數(shù)據(jù)。CEP發(fā)動機(jī)通過過濾、聚集、相關(guān)性等方式連續(xù)分析進(jìn)來的事件流,從而實(shí)時傳遞相關(guān)的業(yè)務(wù)模式。通常CEP應(yīng)用中的事件流隨著時間的推移不具備穩(wěn)定性和連續(xù)性。在對應(yīng)的CEP應(yīng)用中,事件流的偏差可能為一個時機(jī)或一個威脅。相應(yīng)地,早期的為與事件流緊密相關(guān)的或通過其他某種方式依賴或依靠事件流的業(yè)務(wù)的事件流探測可能是有利的(例如,高價值)。基于事件流處理的要求,希望基于事件流偏差的檢測提供理由充分的分析結(jié)果。同樣,也希望可以這種聯(lián)機(jī)方式(例如,實(shí)時,正在處理以及非存儲等等)的結(jié)果。在一些例子中,被處理的流的特性可能無法預(yù)先知道,該探測可能不具備流的特性等的適用的預(yù)備知識。現(xiàn)有技術(shù)中,包括多種用于探測一連串給定的數(shù)據(jù)的不規(guī)則性的傳統(tǒng)技術(shù)。其中一個傳統(tǒng)的方式是利用數(shù)據(jù)庫探測置于數(shù)據(jù)中的數(shù)據(jù)的特性和不規(guī)則性。利用編程語言例如SQL或數(shù)據(jù)庫上的數(shù)據(jù)挖掘算法,數(shù)據(jù)被設(shè)置且其相應(yīng)的特性被分析。然而,不幸的是,對于大容量低延時的事件流處理的情況下,數(shù)據(jù)庫方式并不是一直可行的。另外,由于典型的高計(jì)算機(jī)要求,數(shù)據(jù)挖掘方式也可能不可行。數(shù)據(jù)挖掘算法需要對數(shù)據(jù)多次起下作業(yè),通常不適用于CEP場景中,該場景中事件流往往潛能無限地并連續(xù)地流入。CEP應(yīng)用往往推行硬性處理要求例如單通道流和限制的計(jì)算機(jī)資源。因此,CEP發(fā)動機(jī)通常逐步處理近來的事件。通常地,CEP發(fā)動機(jī)通常依照SQL、基于規(guī)則的或基于狀態(tài)的方式,并通過瞬時條款被擴(kuò)展。這些條款可能允許事件流分析被限制或限定到一個瞬時窗口。例如,這允許每隔10分鐘或其他時間間隔計(jì)算股價。因此,依賴時間窗口的建立,用戶可以注重分析更多的最新數(shù)據(jù)。基于SQL的CEP發(fā)動機(jī)可以利用特定的SQL功能進(jìn)行偏差檢測。SQL提供包括例如MIN、MAX、VAR以及AVG等的集合。為了檢測偏差,一個連續(xù)的SQL查詢能夠,例如,通過布林線計(jì)算最新值的偏差。布林線可以限定一個接近平均值的兩個標(biāo)準(zhǔn)偏差的envelope。如果一個新值在布林線外,則歸類為一個偏差。然而,這種方法具有限制,需要數(shù)據(jù)排布正常以獲得可靠的分析結(jié)果。另外,標(biāo)準(zhǔn)的SQL集合表示有限。比如,它們僅提供基礎(chǔ)分布的根據(jù)經(jīng)驗(yàn)的摘要測量,但無法容易地檢測不規(guī)則或多樣模式的分布。例如,上述的這種利用布林線的方式,假設(shè)一個事件流的標(biāo)準(zhǔn)分布,以及無法支持隨意的流的假設(shè)。因而,非標(biāo)準(zhǔn)分布的結(jié)果可能為低質(zhì)量的,因?yàn)樗鼈儼ú灰?guī)則的或多樣模式的分布。基于規(guī)則的或基于狀態(tài)的CEP發(fā)動機(jī)也可能提供簡單的集合例如上述的SQL功能。那么規(guī)則或狀態(tài)可能也利用這些集合從平均性能檢測偏差。因此,利用基于規(guī)則的或基于狀態(tài)的CEP發(fā)動機(jī),基于SQL的CEP發(fā)動機(jī)的相關(guān)問題也仍然會發(fā)生在基于規(guī)則的或基于狀態(tài)的CEP發(fā)動機(jī)上。一般標(biāo)準(zhǔn)集合只提供摘要測量,這些摘要測量不檢測不規(guī)則的或多樣模式的分布。另一個相關(guān)的新技術(shù)在流挖掘算法上毫無希望。流挖掘算法分析事件流是一種實(shí)時的行為。然而,這領(lǐng)域的成果只是發(fā)展初期,還需要更多的成果。因此,本領(lǐng)域需要一種提高的系統(tǒng)和/或方法以檢測事件流的偏差,例如,提供一種CEP應(yīng)用或類似的東西。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)實(shí)施例的一個目的是能夠在至少兩個時間窗口內(nèi)計(jì)算事件流的偏差。在某些實(shí)施例中,其中的一個時間可能圍繞整個事件流。本專利技術(shù)實(shí)施例的另一個目的是通過使用核密度估計(jì)(KDEs)估算事件流的偏差。本專利技術(shù)實(shí)施例的再一個目的是一旦產(chǎn)生一個事件流的偏差,就會發(fā)送通知。本專利技術(shù)實(shí)施例的另一個目的是在事件流的理想性能和事件流性能的短期計(jì)算之間計(jì)算一個偏差。本專利技術(shù)實(shí)施例的再一個目的是比對一個長期時間窗口的偏差和短期時間窗口的偏差。本專利技術(shù)實(shí)施例的再一個目的是對比事件流的偏差和閥值。在本專利技術(shù)實(shí)施例中,提供了一種適用于處理系統(tǒng)如至少包括一個處理器上的偏差檢測方法。處理系統(tǒng)接收至少一個事件流數(shù)據(jù),其中該事件流數(shù)據(jù)包括至少一個屬性。計(jì)算一個長期統(tǒng)計(jì)量,這個長期統(tǒng)計(jì)量相應(yīng)于在第一個時間窗口中的至少一個事件流數(shù)據(jù)的至少一個監(jiān)測屬性的概率密度函數(shù)(PDF)的第一次估算。計(jì)算一個短期統(tǒng)計(jì)量,這個統(tǒng)計(jì)量相應(yīng)于在第二個時間窗口中的至少一個事件數(shù)據(jù)流的至少一個監(jiān)測屬性的概率密度函數(shù)(HF)的第二次估算。分別計(jì)算理想的密度分布和長、短期統(tǒng)計(jì)量之間的第一和第二距離。至少基于第一、第二距離計(jì)算最新的偏差。最新的偏差與閥值比較。如果更多的監(jiān)測事件通過至少一個事件數(shù)據(jù)流被傳遞,重復(fù)上述步驟。在本專利技術(shù)的實(shí)施例中,提供一種適用于處理系統(tǒng)如至少包括一個處理器上的偏差檢測方法。處理系統(tǒng)接收至少一個事件流數(shù)據(jù)。在第一時間段中,為至少一個事件數(shù)據(jù)流的至少一個監(jiān)測事件,需要提供一個短期的核密度估計(jì)(KDE)。在第二時間段中,為至少一個事件數(shù)據(jù)流的至少一個監(jiān)測事件,需要提供一個長期的核密度估計(jì)(KDE)。依靠短期的、長期的核密度估計(jì)(KDE)計(jì)算一個至少預(yù)設(shè)定的概率密度函數(shù)(HF)的偏差。偏差與閥值比較以檢測一個事件流偏差。本專利技術(shù)實(shí)施例也包括穩(wěn)定的計(jì)算機(jī)易讀存儲介質(zhì),當(dāng)在至少一個處理器上根據(jù)存儲指令明白處理時,也執(zhí)行上述和/和其他的方法。同樣地,本專利技術(shù)實(shí)施例提供的系統(tǒng)也使用上述方法,包括用于接收至少一個事件數(shù)據(jù)流的適配器和執(zhí)行上述和/或其他方法的處理器。某些實(shí)施例中提供數(shù)據(jù)存儲以用于測井有關(guān)檢測偏差的信息。這些信息包括,例如偏差的時間/日期,期待值或值的范圍,實(shí)測值或值的范圍等。這些方面的實(shí)施例可以單獨(dú)使用和/或形成不同組合以獲得更多的實(shí)施例。附圖說明在圖中至少實(shí)質(zhì)上與功能符合的部件在這種情況下可以用同樣的標(biāo)記指出,這些部件不需要在所有圖中指出或解釋。在圖中圖I是根據(jù)本專利技術(shù)實(shí)施例的偏差檢測方法的流程圖。圖2顯示了根據(jù)本專利技術(shù)實(shí)施例的偏差檢測方法得到的圖表和基于密度的偏差計(jì) 晳奸里圖3是根據(jù)本專利技術(shù)實(shí)施例的偏差檢測方法的用于偏差檢測的程序用戶界面。圖4為根據(jù)本專利技術(shù)實(shí)施例的執(zhí)行CEP處理的處理系統(tǒng)的結(jié)構(gòu)框圖。具體實(shí)施例方式下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。在本專利技術(shù)的實(shí)施例中,提供一種計(jì)算機(jī)執(zhí)行程序從期待的流屬性中檢測運(yùn)行中的實(shí)值數(shù)據(jù)流的偏差(例如,檢測事件流的屬性)。實(shí)施例中可能使用非參數(shù)領(lǐng)域的技術(shù),例如密度估計(jì)器,去估算提供的事件流的值分布。這種技術(shù)提供的分布可能傳遞一個壓縮簡要的實(shí)值數(shù)據(jù)流的統(tǒng)計(jì)模型和/或一個流的屬性。在某些實(shí)施例中,根據(jù)各個不同時間域計(jì)算的多密度組合估計(jì)量,在細(xì)微的時間分辨率上檢本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種適用于處理系統(tǒng)上的偏差檢測方法,所述處理系統(tǒng)包括至少一個處理器,其特征在于,所述偏差檢測方法包括步驟:(a)從處理系統(tǒng)中接收至少一個事件流數(shù)據(jù),所述事件流數(shù)據(jù)包括至少一個屬性;(b)通過至少一個處理器,更新一個長期統(tǒng)計(jì)量,所述長期統(tǒng)計(jì)量相對于在第一個時間窗口的至少一個事件流數(shù)據(jù)里的至少一個監(jiān)測屬性的概率密度函數(shù)的第一次估算;(c)通過至少一個處理器,更新一個短期統(tǒng)計(jì)量,所述長期統(tǒng)計(jì)量相對于在第二個時間窗口的至少一個事件流數(shù)據(jù)里的至少一個監(jiān)測屬性的概率密度函數(shù)的第二次估算,且所述第二個時間窗口持續(xù)的時間短于所述第一個時間窗口;(d)通過至少一個處理器,分別計(jì)算理想的密度分布和長、短期統(tǒng)計(jì)量之間的第一和第二距離;(e)通過至少一個處理器,至少基于所述第一、第二距離計(jì)算當(dāng)前的偏差;(f)將當(dāng)前的偏差與閥值進(jìn)行比較;(g)對至少一個事件流數(shù)進(jìn)一步提供的檢測事件重復(fù)步驟(a)~(f)。
【技術(shù)特征摘要】
2010.12.17 US 12/971,4591.一種適用于處理系統(tǒng)上的偏差檢測方法,所述處理系統(tǒng)包括至少一個處理器,其特征在于,所述偏差檢測方法包括步驟 (a)從處理系統(tǒng)中接收至少一個事件流數(shù)據(jù),所述事件流數(shù)據(jù)包括至少一個屬性; (b)通過至少一個處理器,更新一個長期統(tǒng)計(jì)量,所述長期統(tǒng)計(jì)量相對于在第一個時間窗口的至少一個事件流數(shù)據(jù)里的至少一個監(jiān)測屬性的概率密度函數(shù)的第一次估算; (C)通過至少一個處理器,更新一個短期統(tǒng)計(jì)量,所述長期統(tǒng)計(jì)量相對于在第二個時間窗口的至少一個事件流數(shù)據(jù)里的至少一個監(jiān)測屬性的概率密度函數(shù)的第二次估算,且所述第二個時間窗口持續(xù)的時間短于所述第一個時間窗口; (d)通過至少一個處理器,分別計(jì)算理想的密度分布和長、短期統(tǒng)計(jì)量之間的第一和第二距離; (e)通過至少一個處理器,至少基于所述第一、第二距離計(jì)算當(dāng)前的偏差; (f)將當(dāng)前的偏差與閥值進(jìn)行比較; (g)對至少一個事件流數(shù)進(jìn)一步提供的檢測事件重復(fù)步驟(a) (f)。2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述事件流數(shù)據(jù)的理想密度分布基于多種理想值。3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述短期統(tǒng)計(jì)量為短期的核密度估計(jì),所述長期統(tǒng)計(jì)量為長期的核密度估計(jì)。4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述第二時間窗口基本圍繞整個所述至少一個事件流數(shù)據(jù)。5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述閥值由用戶設(shè)定。6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述閥值由處理系統(tǒng)自動決定。7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述計(jì)算長期統(tǒng)計(jì)量包括使用聚類核。8.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟在顯示屏上顯示當(dāng)前的偏差與閥值比較的結(jié)果,所述顯示屏與處理系統(tǒng)連接。9.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟在數(shù)據(jù)存儲器或外部應(yīng)用上輸出當(dāng)前的偏差與閥值比較的結(jié)果。10.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟當(dāng)所述當(dāng)前的偏差超過閥值時發(fā)出通知。11.一種適用于處理系統(tǒng)上的偏差檢測方法,所述處理...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:邁克爾·卡馬特,克斯利多夫·海因茨,尤爾根·克雷默,托拜厄斯·里門施奈德,
申請(專利權(quán))人:德商賽克公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。