• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>天津大學專利>正文

    基于局部加權回歸的室內空氣數據預處理方法技術

    技術編號:15691244 閱讀:58 留言:0更新日期:2017-06-24 04:17
    本發明專利技術涉及隨時間變化的空氣參數數據預處理,為用簡單但有效的方法對室內空氣隨時間變化的數據進行預處理,包括短時長數據空缺的填補,數據異常跳變值的去除,與此同時保證與人行為變化相關的數據大幅度變動不被識別成異常值,最后進行零點偏移的矯正。本發明專利技術采用的技術方案是,基于局部加權回歸的室內空氣數據預處理方法,首先進行短時長數據空缺的填補,要確保整個數據不存在空缺的0值,然后再進行數據異常跳變值的去除,在保證不再存在針狀的數據跳變點時,再進行零點偏移的矯正,即將處理好的數據代入到標定曲線中。本發明專利技術主要應用于隨時間變化的空氣參數數據預處理。

    Preprocessing method of indoor air data based on local weighted regression

    Air parameter data pretreatment of the present invention relates to changes over time, as with a simple but effective way of indoor air changes over time in data preprocessing, including fill short length data, abnormal data jump value at the same time to ensure the removal of change, change the data change substantially related to not be identified as outliers with human behavior, and finally the zero offset correction. The technical scheme of the invention is that the locally weighted regression of indoor air data preprocessing method based on the first to fill the vacancy of short length data, to ensure that the data does not exist vacant 0 values, and then remove the abnormal data jump value, to ensure no longer exists needle data jump point, then correction of zero offset, to handle the data into calibration curve. The invention is mainly applied to the pretreatment of the air parameter data over time.

    【技術實現步驟摘要】
    基于局部加權回歸的室內空氣數據預處理方法
    本算法能對隨時間變化的空氣參數(溫度,濕度,甲醛濃度,PM2.5濃度,二氧化碳濃度等)中的數據空缺進行填補,并可以對數據中的異常跳變值進行去除,以及可以對數據進行零點偏移的修正。屬于特定數據預處理的領域。具體講,涉及基于局部加權回歸的室內空氣數據預處理方法。
    技術介紹
    目前對數據進行預處理的技術方法難易皆具,然而簡單的預處理方法難以做到有效,而有效的預處理方法往往比較復雜[1]。本技術預處理的數據對象是室內空氣數據:第一,這種數據具有整體上隨時間緩慢變動但是每時每刻都有著不同程度的隨機噪聲的特點(如圖1);第二,由于硬件系統具有數據空缺報警功能,故可以確保數據空缺的時長很短;第三,已經具有了修正零點偏移的標定曲線。所以相比于對數據空缺進行填補和零點偏移,本技術的核心是對數據中的跳變異常值進行去除,并且能夠保證與人行為變化相關的數據大幅度變動不被識別成異常值被剔除。在對數據異常值進行剔除的方法中,最常見的是對數據直接使用C4.5決策樹進行分類判定[2],但是該算法易將因為人行為變化導致的數據大幅度變動值和異常跳變值一并被分類成異常值;其次CD(CurveDescription)法也被用于對異常值的分類[3],此方法以相鄰的數值的變化量和變化率為閾值進行判定,然而對于本專利要解決的問題而言,它和決策樹法有著相似的缺陷,而且在程序實現上也比決策樹法復雜;國外也使用噪聲數據過濾法(Filters)識別并剔除異常值,比較典型的是EnsembleFilter(EF)[4]和Iterative-PartitioningFilter(IPF)[5],這兩種方法都比較有名,但是都比較復雜,得對其額外設置多個參數[1],這對本技術所面對的問題是沒有必要的。
    技術實現思路
    為克服現有技術的不足,本專利技術旨在用簡單但有效的方法對室內空氣隨時間變化的數據進行預處理,包括短時長數據空缺的填補,數據異常跳變值的去除,與此同時保證與人行為變化相關的數據大幅度變動不被識別成異常值,最后進行零點偏移的矯正。本專利技術采用的技術方案是,基于局部加權回歸的室內空氣數據預處理方法,首先進行短時長數據空缺的填補,要確保整個數據不存在空缺的0值,然后再進行數據異常跳變值的去除,在保證不再存在針狀的數據跳變點時,再進行零點偏移的矯正,即將處理好的數據代入到標定曲線中。進行數據異常跳變值的去除具體步驟是,使用擬合曲線將有意義的信息擬合出來,并且同時不擬合針狀數據跳變和所有的高頻噪聲,具體選用局部加權回歸(LocalWeightRegression)進行有用信息的擬合,再用原數據曲線減去擬合曲線得到噪聲曲線,解決有用信息對跳變值去除的干擾。局部加權回歸原理具體步驟是,先用一定數目的橫軸上的參考點將整個數據等分開來,并以這些點為中心分別求算線局部性回歸,在使用最小二乘法求解回歸參數時,離中心點越遠的數據點所占的權數越小,最后得到這些點的回歸數值,然后用插值將這些回歸數值點相連,這里使用線性插值即可;進一步地,對每一個訓練數據點,都要使得:∑iw(i)(y(i)-θTx(i))2(1)最小;其中i是訓練數據的個數角標;x指時間軸的時間值;y是目標值;θ是回歸方程的系數向量,使用二次回歸,故θ是個三維向量;w是高斯權數,表示成:其中沒有上角標的x指的是選定的橫軸上的參考點,τ是帶寬(bandwidth),τ越大,局部回歸的強度越大;局部加權回歸在每個殘差平方項之前多一個高斯權,對每個參考點都要求得二次的回歸曲線,且曲線參數一定是不同的,對任一個參考點x,都有:θ=(XTWX)-1XTWy(3)其中,X是由1,x(i),(x(i))2組成的m維矩陣,稱之為設計矩陣(designmatrix)m即訓練數據數量,X寫作:W是m階對角矩陣,寫作diag(w(1)…w(i)…w(n));y是目標值排成的m階列向量,記作(y(1)…y(i)…y(n))T;最終得到的θ是一個3×3的矩陣,取θ中第一列中的從上到下三個元素分別作為二次回歸曲線中的常數項前系數,一次項前系數和二次項前系數,對于每一個參考點xck(j),代回回歸曲線都有其對應的回歸值yck(j),其中j是參考點數據的個數角標,這樣便形成一個回歸點(xck(j),yck(j));將相鄰的回歸點進行線性插值就得到對整個數據曲線進行回歸的回歸曲線。使用局部加權回歸識別并剔除跳變值的流程:a.將原數據曲線進行局部加權回歸,生成擬合曲線;b.將原數據減去擬合曲線得到殘差曲線;c.求殘差曲線的平均值和標準差;d.遍歷所有的殘差數據,利用拉依達準則,挑選出所有超出限制的數據:e.獲取d中選中的數據的標號,并將對應標號中的原數據替換成跳變數據兩端的正常數據之間的插值,達到平滑的目的。本專利技術的特點及有益效果是:本專利技術具有原理簡單,計算快速并效果顯著的特點。該專利技術對室內空氣質量(IAQ)隨時間的數據有著良好的有益效果:本專利技術能夠有效的從原數據中分離出噪聲;能夠通過分析噪聲特點來對數據中的跳變異常值進行去除,并且能夠保證與人行為變化相關的數據大幅度變動不被識別成異常值被剔除。附圖說明:圖1:對一間辦公室使用傳感器的實測室內空氣數據,橫軸是時間,以1秒為單位;縱軸是相應的數值強度。圖中1-2和1-3都有針狀的數據跳變。圖2:帶有數據空缺和數據跳變的實測甲醛隨時間的變化數據曲線。圖3數據平滑流程圖。圖4:數據空缺被插值的實測甲醛隨時間的變化數據曲線。圖5:對圖1曲線進行局部加權回歸后的實測甲醛隨時間的變化數據擬合曲線圖6:甲醛隨時間的變化數據的殘差曲線,可見數據跳變在其中,且不含有任何有用信息。圖7:數據跳變被平滑的實測甲醛隨時間的變化數據曲線,可見有用信息都被保留了下來。具體實施方式為了防止算法的復雜以及誤差的放大,對可能帶有短時間數據空缺的室內空氣數據進行預處理時,首先進行短時長數據空缺的填補,要確保整個數據不存在空缺的0值,然后再進行數據異常跳變值的去除,在保證不再存在針狀的數據跳變點時,再進行零點偏移的矯正,即將處理好的數據代入到標定曲線中。1)在原始數據中,凡是空缺值都已經用0代替。首先選擇n個數值組成的時序數據,這里n需要是容易被整除的數,比如2000,這為了能夠有效的進行數據跳變值的去除。然后將原始數據進行空缺值的填補,并根據(三)中提到的數據性質,在這里選用對數據進行插值,將結果替換掉對應位置的0值。2)確保整個數據中沒有0值時,開始對跳變值進行去除。這里注意到不能將因為人行為變化的數據大幅度變動去除,以帶有數據空缺,數據跳變和因為人行為變化的數據大幅度變動的實測甲醛數據為例(如圖2),發現數據跳變和因為人行為變化的數據變動有著很大的區別:如圖2中右側虛線曲線部分,此處對應的時刻,辦公室門被打開,使得對門的實驗室里面的實驗甲醛氣體部分涌入辦公室,導致了室內甲醛濃度升高,這屬于典型的人行為變化。這種甲醛濃度的變化不能被當做異常值識別并剔除。其次,左側的實線紅圈的部分是數據缺失,為0值。在這里,不適宜直接將數據進行異常值的剔除,一方面數據整體走勢就呈現出緩慢的變動,從左側的0.07變到右側的0.047,另一方面就是右側虛線紅圈的曲線很容易被當作異常值,這些都是數據曲線中的有意義的本文檔來自技高網
    ...
    基于局部加權回歸的室內空氣數據預處理方法

    【技術保護點】
    一種基于局部加權回歸的室內空氣數據預處理方法,其特征是,首先進行短時長數據空缺的填補,要確保整個數據不存在空缺的0值,然后再進行數據異常跳變值的去除,在保證不再存在針狀的數據跳變點時,再進行零點偏移的矯正,即將處理好的數據代入到標定曲線中。

    【技術特征摘要】
    1.一種基于局部加權回歸的室內空氣數據預處理方法,其特征是,首先進行短時長數據空缺的填補,要確保整個數據不存在空缺的0值,然后再進行數據異常跳變值的去除,在保證不再存在針狀的數據跳變點時,再進行零點偏移的矯正,即將處理好的數據代入到標定曲線中。2.如權利要求1所述的基于局部加權回歸的室內空氣數據預處理方法,其特征是,進行數據異常跳變值的去除具體步驟是,使用擬合曲線將有意義的信息擬合出來,并且同時不擬合針狀數據跳變和所有的高頻噪聲,具體選用局部加權回歸(LocalWeightRegression)進行有用信息的擬合,再用原數據曲線減去擬合曲線得到噪聲曲線,解決有用信息對跳變值去除的干擾。3.如權利要求2所述的基于局部加權回歸的室內空氣數據預處理方法,其特征是,局部加權回歸原理具體步驟是,先用一定數目的橫軸上的參考點將整個數據等分開來,并以這些點為中心分別求算線局部性回歸,在使用最小二乘法求解回歸參數時,離中心點越遠的數據點所占的權數越小,最后得到這些點的回歸數值,然后用插值將這些回歸數值點相連,這里使用線性插值即可;進一步地,對每一個訓練數據點,都要使得:∑iw(i)(y(i)-θTx(i))2(1)最小;其中i是訓練數據的個數角標;x指時間軸的時間值;y是目標值;θ是回歸方程的系數向量,使用二次回歸,故θ是個三維向量;w是高斯權數,表示成:其中沒有上角標的x指的是選定的橫軸上的參考點,τ是帶寬(bandwidth),τ越大,局部回歸的強...

    【專利技術屬性】
    技術研發人員:孫賀江徐崇劉俊杰
    申請(專利權)人:天津大學
    類型:發明
    國別省市:天津,12

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码少妇一区二区| 国产av永久无码天堂影院| 国产亚洲美日韩AV中文字幕无码成人| 精品久久久久久中文字幕无码| 无码永久免费AV网站| 一本大道无码日韩精品影视_| 亚洲欧洲日产国码无码网站| 亚洲日韩av无码中文| 久久久人妻精品无码一区| AV无码久久久久不卡网站下载 | 少妇无码太爽了在线播放| 性无码一区二区三区在线观看| 最新亚洲人成无码网站| 久久久久亚洲AV片无码下载蜜桃| 四虎成人精品国产永久免费无码 | 97在线视频人妻无码| 亚洲AV永久无码区成人网站| 亚洲AV无码乱码在线观看性色扶| 人妻丰满熟妇岳AV无码区HD| 无码精品人妻一区二区三区影院| 2019亚洲午夜无码天堂| 少妇人妻无码精品视频app| 亚洲AV无码乱码在线观看| 国产精品无码亚洲精品2021| 毛片无码免费无码播放| 国产综合无码一区二区辣椒| 无码任你躁久久久久久久| 无码一区二区三区在线| 无码亚洲成a人在线观看| 免费无码又爽又刺激高潮视频| 在线播放无码高潮的视频| 国产精品午夜福利在线无码| 免费无码婬片aaa直播表情| 无码精品A∨在线观看无广告| 人妻少妇看A偷人无码电影| 曰产无码久久久久久精品| 亚洲日韩一区二区一无码| 亚洲爆乳精品无码一区二区| 精品人妻无码一区二区三区蜜桃一| 亚洲人av高清无码| 无码一区二区三区免费视频 |