本發(fā)明專利技術(shù)公開了一種時(shí)間序列數(shù)據(jù)異常檢測方法,包括以下步驟:定義時(shí)間序列中數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn);計(jì)算數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn)的均值;計(jì)算絕對誤差值ei(k),累積變化量ACi;設(shè)定閾值τ,分別比較上述計(jì)算得到的絕對誤差值ei(k)、累積變化量ACi和閾值τ之間的大小關(guān)系:如果ei(k)>τ或ACi>τ,則標(biāo)記為異常點(diǎn),否則,保留。本發(fā)明專利技術(shù)還公開一種時(shí)間序列數(shù)據(jù)異常檢測裝置。本發(fā)明專利技術(shù)的數(shù)據(jù)點(diǎn)異常的判定和該數(shù)據(jù)點(diǎn)的鄰居節(jié)點(diǎn)相關(guān),這體現(xiàn)了“局部”的概念。鄰居節(jié)點(diǎn)窗口寬度可依據(jù)不同時(shí)段的具體需求進(jìn)行動態(tài)調(diào)整,保證了不同時(shí)段情況下的參數(shù)局部最優(yōu),能有效檢測出時(shí)間序列中的異常數(shù)據(jù),具有廣泛的應(yīng)用前景。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于數(shù)據(jù)管理及業(yè)務(wù)支撐領(lǐng)域,涉及信息采集及信息處理過程中的數(shù)據(jù)質(zhì)量控制,具體涉及一種實(shí)時(shí)時(shí)間序列異常數(shù)據(jù)的檢測方法及裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)為代表的計(jì)算機(jī)信息技術(shù)的高速發(fā)展和傳感器技術(shù)的廣泛應(yīng)用,人們在生產(chǎn)和生活中積累了海量的數(shù)據(jù)。對這些正呈現(xiàn)爆炸式增長的數(shù)據(jù)處理己經(jīng)超出了人們的能力范圍。數(shù)據(jù)挖掘作為一門融合了統(tǒng)計(jì)學(xué)方法、數(shù)據(jù)庫技術(shù)、人工智能網(wǎng)絡(luò)、可視化方法、高性能計(jì)算等學(xué)科和領(lǐng)域的新興技術(shù),能幫助人們及時(shí)發(fā)掘出有用的信息和豐富的知識,提高系統(tǒng)的預(yù)測分析能力和決策支持能力,因而得到了廣泛的應(yīng)用和推廣。異常檢測是數(shù)據(jù)挖掘中的四類知識發(fā)現(xiàn)任務(wù)之一,其目的在于發(fā)現(xiàn)數(shù)據(jù)集中的小 概率事件或模式,即與其它數(shù)據(jù)行為或模型明顯不一致的數(shù)據(jù)對象(異常點(diǎn))。所謂異常(或稱孤立點(diǎn),異常點(diǎn),下同)是指數(shù)據(jù)庫(集)中與其他數(shù)據(jù)表現(xiàn)不一致或者大大地偏離其他數(shù)據(jù)點(diǎn)以至于懷疑它是由不同的機(jī)制生成的小部分對象。當(dāng)信息系統(tǒng)采集的數(shù)據(jù)用于建模時(shí),系統(tǒng)中存在的異常點(diǎn)不僅無法有效地建模并描述系統(tǒng),而且會降低數(shù)據(jù)質(zhì)量,并對數(shù)據(jù)分析、管理和決策水平產(chǎn)生不良影響。為了提高信息系統(tǒng)表達(dá)的準(zhǔn)確性和可靠性,保證系統(tǒng)模型的使用效果,必須在系統(tǒng)建模前對異常數(shù)據(jù)加以識別并進(jìn)行相應(yīng)的處理。目前,異常檢測方法大多建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)上,主要包括基于偏離的方法、基于分布的方法、基于距離的方法和基于密度的方法等,但該類型的方法需要事先知道數(shù)據(jù)的分布,此外,基于統(tǒng)計(jì)的異常檢測算法大多只適合于挖掘單變量的數(shù)值型數(shù)據(jù),對高維、時(shí)間序列數(shù)據(jù)并不適用。而生物學(xué)方法、機(jī)器學(xué)習(xí)的方法和基于特征空間的方法等應(yīng)用于時(shí)間序列的異常檢測方法仍然處于探索階段,還有很多不成熟的地方,很多方法適應(yīng)性不強(qiáng),且普遍存在明顯的缺陷。因此,需要一種新的時(shí)間序列數(shù)據(jù)異常檢測方法以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
專利技術(shù)目的本專利技術(shù)針對現(xiàn)有技術(shù)的信息系統(tǒng)中存在的異常數(shù)據(jù)會降低系統(tǒng)模型的分析精度,不能真實(shí)客觀的反映系統(tǒng)的本質(zhì)的缺陷,提供一種改善現(xiàn)有數(shù)據(jù)分析過程中異常檢測效率的時(shí)間序列數(shù)據(jù)異常檢測方法。技術(shù)方案為解決上述技術(shù)問題,本專利技術(shù)的時(shí)間序列數(shù)據(jù)異常檢測方法采用如下技術(shù)方案—種時(shí)間序列數(shù)據(jù)異常檢測方法,設(shè)定時(shí)間序列D= W1= (V1, ti),d2=(v2, t2), . . . dn=(vn, tn)},時(shí)間序列數(shù)據(jù)Cli= (Vi,h)表示\時(shí)刻的觀測值Vi,其特征包括以下步驟(I)、定義時(shí)間序列中數(shù)據(jù)點(diǎn)Cli的鄰居節(jié)點(diǎn)^產(chǎn),其中,k為數(shù)據(jù)點(diǎn)Cli的鄰居節(jié)點(diǎn)窗口寬度;(2)、計(jì)算數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn)取~的均值產(chǎn);(3)、分別計(jì)算數(shù)據(jù)點(diǎn)Cli和鄰接點(diǎn)均值Wrt Z間的絕對誤差值^產(chǎn),數(shù)據(jù)點(diǎn)Cli與其鄰接點(diǎn)//產(chǎn)之間的累積變化量ACi ;(4)、設(shè)定時(shí)間序列數(shù)據(jù)異常檢測閾值τ,分別比較上述計(jì)算得到的絕對誤差值C 產(chǎn)、累積變化量ACi和閾值τ之間的大小關(guān)系如果# >1或AC) τ,則標(biāo)記(Ii為異常點(diǎn),否則,保留屯。有益效果本專利技術(shù)中提出的時(shí)間序列異常檢測方法中,數(shù)據(jù)點(diǎn)異常的判定和該數(shù)據(jù)點(diǎn)的鄰居節(jié)點(diǎn)相關(guān),這體現(xiàn)了“局部”的概念,這是它與以往異常檢測不同之處,也是優(yōu)勢所在。同時(shí),鄰居節(jié)點(diǎn)窗口寬度可依據(jù)不同時(shí)段的具體需求進(jìn)行動態(tài)調(diào)整,保證了不同時(shí)段·情況下的參數(shù)局部最優(yōu)。本專利技術(shù)提出的時(shí)間序列異常檢測算法能有效檢測出時(shí)間序列中的異常數(shù)據(jù),具有廣泛的應(yīng)用前景。進(jìn)一步的,所述k值代表鄰居節(jié)點(diǎn)窗口寬度,它決定了參與計(jì)算均值(或累積變化)涉及的鄰居節(jié)點(diǎn)個(gè)數(shù)。k值越大,參與計(jì)算的鄰居節(jié)點(diǎn)越多。為獲取變量k最佳取值,令k值范圍為3-31,增量為2,即k={3, 5, ...,31} ο進(jìn)一步的,所述閾值τ的取值由兩部分組成時(shí)段序列上的平均變化量和鄰居節(jié)點(diǎn)方差。前者從整體上說明了該時(shí)段時(shí)間序列變化量的平均水平;后者從局部上說明了當(dāng)前節(jié)點(diǎn)di周圍數(shù)據(jù)的波動情況。因此,閾值τ的大小是動態(tài)變化計(jì)算出的,在觀測值波動較大的情況下,閾值τ也較高;在觀測值波動較小的情況下,閾值τ較低。閾值的設(shè)置考慮到了時(shí)間序列的整體情況和局部特征,可依據(jù)鄰居節(jié)點(diǎn)的波動情況動態(tài)更新,消除了預(yù)設(shè)閾值對檢測效率帶來的不良影響,從而提高了算法的異常檢測效率。進(jìn)一步的,所述鄰居節(jié)點(diǎn)”產(chǎn)可以定義為雙邊鄰居節(jié)點(diǎn),"產(chǎn)其中2k為數(shù)據(jù)di的鄰居節(jié)點(diǎn)窗口寬度(從i-k到i+k,不含(Ii本身)。更進(jìn)一步的,當(dāng)所述鄰居節(jié)點(diǎn)/7,㈦為雙邊鄰居節(jié)點(diǎn)時(shí),其均值m產(chǎn)、絕對誤差值e產(chǎn)及累積變化量ACi可通過下述公式分別計(jì)算得到權(quán)利要求1.一種時(shí)間序列數(shù)據(jù)異常檢測方法,設(shè)定時(shí)間序列D= W1= (V1, ti), d2= (v2, t2), . . . dn=(vn, tn)},時(shí)間序列數(shù)據(jù)屯=(\,W表示\時(shí)刻的觀測值Vi,其特征在于,包括以下步驟 (1)、定義時(shí)間序列中數(shù)據(jù)點(diǎn)Cli的鄰居節(jié)點(diǎn)其中,k為數(shù)據(jù)點(diǎn)Cli的鄰居節(jié)點(diǎn)窗口寬度; (2)、計(jì)算數(shù)據(jù)點(diǎn)Cli的鄰居節(jié)點(diǎn)取$的均值; (3)、分別計(jì)算數(shù)據(jù)點(diǎn)Cli和鄰接點(diǎn)均值《7產(chǎn)之間的絕對誤差值e 數(shù)據(jù)點(diǎn)Cli與其鄰接點(diǎn)^產(chǎn)之間的累積變化量ACi ; (4)、設(shè)定時(shí)間序列數(shù)據(jù)異常檢測閾值τ,分別比較上述計(jì)算得到的絕對誤差值e產(chǎn)、累積變化量ACi和閾值τ之間的大小關(guān)系如果ei(k)> τ或AC) τ,則標(biāo)記(Ii為異常點(diǎn),否則,保留CliO2.如權(quán)利要求I所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,所述k值為k= {3,5,· · ·,31}。3.如權(quán)利要求I所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,所述閾值τ的取值由兩部分組成時(shí)段序列上的平均變化量和鄰居節(jié)點(diǎn)方差。4.如權(quán)利要求I所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,所述鄰居節(jié)點(diǎn);/產(chǎn)為單邊鄰居節(jié)點(diǎn),<、={“其中,2k為數(shù)據(jù)Cli的鄰居節(jié)點(diǎn)窗口寬度(從i_2k到i_l) ο5.如權(quán)利要求4所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,所述均值m產(chǎn)、絕對誤差值6嚴(yán)及累積變化量ACi可通過下述公式分別計(jì)算得到6.如權(quán)利要求I所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,所述鄰居節(jié)點(diǎn);/產(chǎn)為雙邊鄰居節(jié)點(diǎn),//產(chǎn)=沐+.其中2k為數(shù)據(jù)Cli的鄰居節(jié)點(diǎn)窗口寬度(從i_k到i+k,不含(Ii本身)。7.如權(quán)利要求6所述的時(shí)間序列數(shù)據(jù)異常檢測方法,其特征在于,數(shù)據(jù)點(diǎn)Cli的雙邊鄰居節(jié)盧~的均值、絕對誤差值t氣及累積變化量ACi可通過下述公式分別計(jì)算得到8.一種時(shí)間序列數(shù)據(jù)異常檢測裝置,其特征在于,包括輸入模塊、異常檢測模塊、輸出模塊,所述輸入模塊用于提供異常檢測所需的時(shí)間序列數(shù)據(jù)集,所述異常檢測模塊采用如權(quán)利要求1-7任一項(xiàng)所述的時(shí)間序列數(shù)據(jù)異常檢測方法進(jìn)行異常檢測,所述輸出模塊根據(jù)所述異常檢測模塊的檢測結(jié)果輸出異常數(shù)據(jù)集。9.如權(quán)利要求8所述的時(shí)間序列數(shù)據(jù)異常檢測裝置,其特征在于,所述異常檢測模塊包括數(shù)據(jù)預(yù)處理組件、計(jì)算組件和分析組件,所述數(shù)據(jù)預(yù)處理組件接收從時(shí)間序列數(shù)據(jù)輸入模塊采集到的數(shù)據(jù)并經(jīng)過進(jìn)行預(yù)處理,所述預(yù)處理是選擇待評估的數(shù)據(jù)點(diǎn)并定義其鄰居節(jié)點(diǎn)集&氣所述計(jì)算組件用于對經(jīng)過預(yù)處理后的數(shù)據(jù)計(jì)算/ 廣'、e&及ACi,所述分析組件對計(jì)算結(jié)果,〃 ACi和給定閾值τ進(jìn)行比較,并根據(jù)比較結(jié)果判斷分析待檢測數(shù)據(jù)是否屬于確定異常。全文摘要本專利技術(shù)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種時(shí)間序列數(shù)據(jù)異常檢測方法,設(shè)定時(shí)間序列D={d1=(v1,t1),d2=(v2,t2),...dn=(vn,tn)},時(shí)間序列數(shù)據(jù)di=(vi,ti)表示ti時(shí)刻的觀測值vi,其特征在于,包括以下步驟:(1)、定義時(shí)間序列中數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn)其中,k為數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn)窗口寬度;(2)、計(jì)算數(shù)據(jù)點(diǎn)di的鄰居節(jié)點(diǎn)的均值(3)、分別計(jì)算數(shù)據(jù)點(diǎn)di和鄰接點(diǎn)均值之間的絕對誤差值數(shù)據(jù)點(diǎn)di與其鄰接點(diǎn)之間的累積變化量ACi;(4)、設(shè)定時(shí)間序列數(shù)據(jù)異常檢測閾值τ,分別比較上述計(jì)算得到的絕對誤差值累積變化量ACi和閾值τ之間的大小關(guān)系:如果ei(k)>τ或ACi>τ,則標(biāo)記di為異常點(diǎn),否則,保留di。FDA00002321517200011.jpg,FDA00002321517200012.jpg,FDA00002321517200013.jpg,FDA00002321517200014.jpg,FDA00002321517200015.jpg,FDA00002321517200016.jpg,FDA00002321517200017.jpg
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:余宇峰,朱躍龍,萬定生,李士進(jìn),張建新,楊方,
申請(專利權(quán))人:河海大學(xué),南京河海科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。