公開了一種用于為單變量時間序列信號實時檢測離群值的方法和系統。所述系統可以從數據源接收單變量時間序列信號,該單變量時間序列信號包括多個數據集。所述系統可以計算多個數據集的數據集的標準差。隨后,所述系統可以計算數據集的最優樣本塊大小和臨界樣本大小。此外,所述系統可確定數據集的最優操作塊大小。所述系統可基于最優操作塊大小將多個數據集分割成多個塊。所述系統可以通過對多個塊執行離群值檢測技術來檢測離群值,從而確保改進執行時間,同時最低限度地影響離群值檢測方法的結果的精確度和準確度。
【技術實現步驟摘要】
相關申請的交叉引用本專利申請要求提交于2015年6月17日的印度專利申請2324/MUM/2015的優先權,其全部內容通過引用并入本文。
本文所描述的主題,一般性地涉及離群值的實時檢測,即,時間序列信號中的虛假數據點。
技術介紹
由用于監測物理參數的傳感器產生大量數據。然后,數據可以被用于識別與傳感器的部署區域相關的顯著事件。例如,傳感器可以部署在監測灌溉參數的領域,并且可以因此形成無線傳感器網絡(WSN)或通用傳感器網絡。傳感器可以被標識為WSN中的節點。WSN的節點可以將數據即灌溉參數連續地傳送到中央節點或服務器。因此,由服務器接收到的數據的量是巨大的,并且可能需要大量的處理用于確定顯著事件。在另一個示例中,傳感器可用于監聽人的心臟活動。然后,對應于心臟活動的數據可用于識別心臟異常和進一步的醫療診斷。因此,大量數據需要進行處理用于推導出結果。待用于處理的大量數據可以在識別離群值后得以減少。離群值有助于識別存在于大量數據中的顯著事件。準確的離群值檢測技術需要大量用于處理的數據的樣本。因此,處理大量的樣本可能需要大量的執行計算量,從而使用很多的執行時間。為了減少計算的次數,可以使用較少數量的用于處理的樣本。但是,在檢測離群值時減少樣本數量可能導致誤報警,即對指示顯著事件的離群值的假識別。誤報警的數量的增加意味著準確度的降低。參考圖1,其示出準確度與執行時間之間的關系的圖形表示。用于檢測離群值的方法的中樣本大小(即樣本數量)影響與方法相關的準確度和執行時間。執行時間,即分析樣本的數量所需要的時間量隨樣本大小的增加而升高。同時,準確度,即產生誤報警的比率隨樣本大小增加而減少。圖1還示出最優操作點,其中樣本大小為誤報警率最低同時執行時間具有最優值。
技術實現思路
提供本
技術實現思路
以介紹與用于為單變量時間序列信號實時檢測離群值的系統和方法的相關的各個方案,并且在下面的詳細描述中進一步描述這些描述。本
技術實現思路
不旨在標識所要求保護的主題的必要特征,也不旨在用于確定或限制所要求保護的主題的范圍。在一個實現中,公開了一種用于為單變量時間序列信號實時檢測離群值的方法。所述方法可以包括從數據源接收單變量時間序列信號。所述單變量時間序列信號可以包括多個數據集。所述多個數據集的每個數據集可以包括個單變量時間序列數據元素。所述方法還可以包括計算所述多個數據集的數據集的標準差(σ)。所述方法還可以包括通過使用所述標準差(σ)計算最優樣本塊大小所述方法還可以包括基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)計算臨界樣本大小所述方法還可以包括確定數據集的最優操作塊大小所述方法還可以包括基于所述最優操作塊大小將所述多個數據集分割成多個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。所述方法還可以包括通過對多個塊實施離群值檢測技術來實時檢測離群值。在一個實現中,公開了一種用于為單變量時間序列信號實時檢測離群值的系統。所述系統包括處理器和耦接到所述處理器的存儲器,所述處理器用于執行存儲在所述存儲器編程指令。所述處理器可以從數據源接收單變量時間序列信號。所述單變量時間序列信號可以包括多個數據集。所述多個數據集的每個數據集可以包括個單變量時間序列數據元素。所述處理器還可以計算所述多個數據集的數據集的標準差(σ)。所述處理器還可以通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小所述處理器還可以基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)計算臨界樣本大小所述處理器還可以確定數據集的最優操作塊大小所述處理器還可以基于所述最優操作塊大小將所述多個數據集分割成多個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。所述處理器還可以通過對多個塊實施離群值檢測技術來實時檢測離群值。在一個實現中,公開了一種非暫時性計算機可讀介質,實現在計算設備中可執行的程序,用于為單變量時間序列信號實時檢測離群值。所述程序可以包括用于從數據源接收單變量時間序列信號的代碼。所述單變量時間序列信號可以包括多個數據集。所述多個數據集的每個數據集可以包括個單變量時間序列數據元素。所述程序還可以包括用于計算所述多個數據集的數據集的標準差(σ)的代碼。所述程序還可以包括用于通過使用所述標準差(σ)計算數據集的最優樣本塊大小的代碼。所述程序還可以包括用于基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)計算臨界樣本大小的代碼。所述程序還可以包括用于確定數據集的最優操作塊大小的代碼。所述程序還可以包括用于基于所述最優操作塊大小將所述多個數據集分割成多個塊。每個塊包括個單變量時間序列數據元素的個數據元素的代碼。每個塊可以包括個單變量時間序列數據元素的個數據元素。所述程序還可以包括用于通過對多個塊實施離群值檢測技術來實時檢測離群值的代碼。附圖說明參考附圖描述詳細描述。在附圖中,附圖標記的最左邊數字(多個)標識首次出現該標記的附圖。在整個附圖中相同的標記用于指代相似的特征和部件。圖1示出現有技術中已知的、相對于樣本大小的準確度和執行時間之間的關系的圖形表示。圖2示出根據本主題的一個實施例的用于為單變量時間序列信號實時檢測離群值的系統的網絡實現。圖3a示出根據本主題的一個實施例的計算延遲與塊大小之間的關系的示例性圖形表示。圖3b示出根據本主題的一個實施例的精確度與塊大小之間的關系的示例性圖形表示。圖4示出根據本主題的一個實施例的用于為單變量時間序列信號實時檢測離群值的方法。具體實施方式在本主題中描述了用于為單變量時間序列信號實時檢測離群值的系統和方法。所述系統可以接收來自數據源的單變量時間序列信號。該單變量時間序列信號可以包括多個數據集。所述多個數據集中的每個數據集可以包括個單變量時間序列數據元素。所述系統可以計算多個數據集的數據集的標準差(σ)。通過使用標準差(σ),所述系統還可以計算最優樣本塊大小和數據集的臨界樣本大小此外,所述系統可以確定數據集的最優操作塊大小此外,所述系統可以基于最優操作塊大小將多個數據集分割成多個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。隨后,所述系統可以通過對每個塊實施離群值檢測技術來檢測離群值。因此,所述系統可以使用上述方法為單變量時間序列信號實時檢測離群值。雖然所描述的用于為單變量時間序列信號實時檢測離群值的系統和方法的各個方案可以實現為任何數量的不同的計算系統、環境和/或配置,但是在下面的示例性系統的背景中描述各個實施例。現在參考圖2,其示出根據本主題的實施例的用于為單變量時間序列信號實時檢測離群值的系統202。雖然本主題被說明為考慮系統202在計算機上實現,但可以理解的是,系統202還可以在各種計算系統上實現,包括但不限于智能電話、平板電腦、筆記本平板電腦、個人數字助理、手持式設備、膝上型計算機、筆記本電腦、工作站、大型計算機、服務器和網絡服務器。在一個實施例中,系統202可以在基于云的環境中實現。應當理解的是,系統202可以通過一個或多個用戶設備204-1、204-2...204-N(下文統稱為用戶設備204)或者駐留在用戶設備204上的應用程序而被多個用戶訪問。用戶設備20本文檔來自技高網...

【技術保護點】
一種用于為單變量時間序列信號實時檢測離群值的方法,所述方法包括:由處理器(210)從數據源接收單變量時間序列信號,其中所述單變量時間序列信號包括多個數據集,并且其中所述多個數據集的每個數據集包括個單變量時間序列數據元素;由所述處理器(210)計算所述多個數據集的數據集的標準差(σ);由所述處理器(210)通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小由所述處理器(210)基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1?∈)計算臨界樣本大小由所述處理器(210)確定所述數據集的最優操作塊大小由所述處理器(210)基于所述最優操作塊大小將所述多個數據集分割成多個塊,其中每個塊包括所述個單變量時間序列數據元素的個數據元素;以及由所述處理器(210)通過對所述多個塊實施離群值檢測技術來實時檢測離群值。
【技術特征摘要】
2015.06.17 IN 2324/MUM/20151.一種用于為單變量時間序列信號實時檢測離群值的方法,所述方法包括:由處理器(210)從數據源接收單變量時間序列信號,其中所述單變量時間序列信號包括多個數據集,并且其中所述多個數據集的每個數據集包括個單變量時間序列數據元素;由所述處理器(210)計算所述多個數據集的數據集的標準差(σ);由所述處理器(210)通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小由所述處理器(210)基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)計算臨界樣本大小由所述處理器(210)確定所述數據集的最優操作塊大小由所述處理器(210)基于所述最優操作塊大小將所述多個數據集分割成多個塊,其中每個塊包括所述個單變量時間序列數據元素的個數據元素;以及由所述處理器(210)通過對所述多個塊實施離群值檢測技術來實時檢測離群值。2.根據權利要求1所述的方法,其中使用來計算所述最優樣本塊大小3.根據權利要求1所述的方法,其中使用來計算所述臨界樣本大小4.根據權利要求1所述的方法,其中使用來確定所述最優操作塊大小5.根據權利要求1所述的方法,其中所述離群值檢測技術包括如Rosner濾波技術和Hampel濾波技術的無監管技術。6.一種用于為單變量時間序列信號實時檢測離群值的系統,所述系統包括:處理器(210);存儲器(212),耦接到所述處理器(210),其中所述處理器能夠執行存儲在所述存儲器(212)中的編程指令,以:從數據源接收單變量時間序列信號,其中所述單變量時間序列信號包括多個數據集,并且其中所述多個數據集的每個數據...
【專利技術屬性】
技術研發人員:A·烏基爾,S·班德亞帕德耶,A·帕爾,
申請(專利權)人:塔塔咨詢服務公司,
類型:發明
國別省市:印度;IN
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。