本發明專利技術涉及數據處理,具體涉及一種微型空氣質量監測站的異常數據識別修正方法,獲取目標微型空氣質量監測站的空氣質量監測數據,并對空氣質量監測數據進行初步異常數據剔除,形成初步數據樣本;采用隔離森林算法對初步數據樣本中的潛在異常數據進行進一步識別,從初步數據樣本中剔除潛在異常數據,并對缺失數據進行統計;對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,根據整合后數據篩選出與缺失數據線性相關的自變量;計算缺失數據與鄰近微型空氣質量監測站數據之間的顯著性,確定與缺失數據關聯性較大的自變量;本發明專利技術提供的技術方案能夠有效克服無法對微型空氣質量監測站的異常數據進行精準識別修正的缺陷。
【技術實現步驟摘要】
本專利技術涉及數據處理,具體涉及一種微型空氣質量監測站的異常數據識別修正方法。
技術介紹
1、空氣質量監測是應對大氣污染的耳目與基石,沒有科學準確的監測數據作支撐,大氣污染防治工作就成了無源之水,無本之木。與標準空氣監測站相比,低成本網格化微型空氣質量監測站多采用“電化學+光散射+光電離探測器(pid)”等技術,更易受到傳感器老化漂移和交叉干擾效應等因素的影響。有研究表明,在不斷變化的天氣條件下及暴露于不同的混合氣體時,傳感器測量精度較低,電化學電池更容易失去靈敏度,造成傳感器出現漂移,對溫度、濕度、顆粒成分或粒子大小的變化敏感,氣體傳感器之間相互作用并會產生較大的交叉干擾效應等,導致網格化微型空氣質量監測站的監測數據質量難以保證。因此,開展網格化微型空氣質量監測站的異常數據識別修正技術研究十分必要。
2、目前,比較普遍的做法是生產企業采用標準物質對傳感器進行出廠實驗室修正。現場安裝后,部分站點采用比對修正,定期與附近標準空氣監測站或移動監測車的監測數據進行比對,若監測數據出現明顯異常,拆除傳感器送實驗室進行修正調整。但是,由于設備長期處于戶外無人值守的運行環境,顯然常規的實驗室修正無法替代在線修正工作,然而標準空氣監測站的數量較少,與微型空氣質量監測站之間的距離較遠,即便比對數據出現偏差也難以作出合格與否的準確判定。同時,利用移動監測車進行傳遞修正,很多時候受限于站點的安裝地理位置、樓層高度,兩者之間的直線距離往往超過有效比對范圍(一般在10m左右),使得移動監測車難以實現大批量傳感器的精準修正。
技術實現思路
1、(一)解決的技術問題
2、針對現有技術所存在的上述缺點,本專利技術提供了一種微型空氣質量監測站的異常數據識別修正方法,能夠有效克服現有技術所存在的無法對微型空氣質量監測站的異常數據進行精準識別修正的缺陷。
3、(二)技術方案
4、為實現以上目的,本專利技術通過以下技術方案予以實現:
5、一種微型空氣質量監測站的異常數據識別修正方法,包括以下步驟:
6、s1、獲取目標微型空氣質量監測站的空氣質量監測數據,并對空氣質量監測數據進行初步異常數據剔除,形成初步數據樣本;
7、s2、采用隔離森林算法對初步數據樣本中的潛在異常數據進行進一步識別,從初步數據樣本中剔除潛在異常數據,并對缺失數據進行統計;
8、s3、對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,根據整合后數據篩選出與缺失數據線性相關的自變量;
9、s4、計算缺失數據與鄰近微型空氣質量監測站數據之間的顯著性,確定與缺失數據關聯性較大的自變量;
10、s5、將缺失數據作為因變量,選取不同數量的鄰近微型空氣質量監測站數據中與缺失數據關聯性較大的數據作為自變量,確定作為自變量的鄰近微型空氣質量監測站數量;
11、s6、獲取目標數量的鄰近微型空氣質量監測站數據,并將其中與缺失數據關聯性較大的數據作為自變量,將缺失數據作為因變量,構建多元線性回歸方程,利用多元線性回歸方程對缺失數據進行填充。
12、優選地,s1中獲取目標微型空氣質量監測站的空氣質量監測數據,并對空氣質量監測數據進行初步異常數據剔除,形成初步數據樣本,包括:
13、s11、獲取目標微型空氣質量監測站的空氣質量監測數據,通過繪制箱線圖的方式查看空氣質量監測數據的數據分布情況;
14、s12、利用箱線圖四分位距iqr對初步異常數據進行識別,并從空氣質量監測數據中剔除初步異常數據,形成初步數據樣本。
15、優選地,s2中采用隔離森林算法對初步數據樣本中的潛在異常數據進行進一步識別,包括:
16、構建隔離樹;計算路徑長度;計算異常分數;基于異常分數閾值識別初步數據樣本中的潛在異常數據。
17、優選地,所述計算路徑長度,包括:
18、對于一個數據對象,路徑長度是其從根節點到被隔離的葉節點之間樹的高度,數據對象的葉節點路徑長度等于二叉樹中搜索失敗時的路徑長度;
19、其中,二叉樹中搜索失敗時的路徑長度l采用下式計算:
20、
21、上式中,n為樣本數據集中的樣本數量,x表示樣本數據集中的一個樣本數據,e(l(x))為樣本數據x在一批隔離樹中的路徑長度期望,為樣本數據集中樹的平均路徑長度,h(n-1)為諧波數,h(n-1)=in(n-1)+ε,ε為歐拉常數。
22、優選地,s3中對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,根據整合后數據篩選出與缺失數據線性相關的自變量,包括:
23、s31、基于各微型空氣質量監測站的地理位置信息,將與目標微型空氣質量監測站之間的空間地理距離小于預設空間地理距離的微型空氣質量監測站,作為目標微型空氣質量監測站的鄰近微型空氣質量監測站;
24、s32、對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,基于相關性分析根據整合后數據篩選出與缺失數據線性相關的自變量。
25、優選地,所述空間地理距離d采用下式計算:
26、
27、其中,d為第一地點與第二地點之間的空間地理距離,r為地球半徑,β1、β2分別為第一地點、第二地點的維度,δγ為第一地點、第二地點之間的經度差值,haversin函數的表達式為
28、優選地,s32中基于相關性分析根據整合后數據篩選出與缺失數據線性相關的自變量,包括:
29、基于皮爾遜相關系數篩選出與缺失數據線性相關的自變量,皮爾遜相關系數p采用下式計算:
30、
31、其中,p為變量x、變量y之間的皮爾遜相關系數,n為變量x、變量y的維度,xi表示變量x的第i個數據,yi表示變量y的第i個數據。
32、優選地,s4中計算缺失數據與鄰近微型空氣質量監測站數據之間的顯著性,確定與缺失數據關聯性較大的自變量,包括:
33、s41、構建初始增廣矩陣,并在初始增廣矩陣的基礎上計算出各預測因子的方差貢獻值;
34、s42、獲取不在方程內的方差貢獻值最大的預測因子,計算該預測因子的方差比并查閱f分布表,若該預測因子的方差比大于其f校驗值,則將該預測因子引入方程中作為一個自變量;
35、s43、計算方程中現有自變量的方差貢獻值,獲取方差貢獻值最小的預測因子,計算該預測因子的方差比并查閱f分布表,若該預測因子的方差比小于其f校驗值,則將該預測因子從方程中剔除;
36、s44、基于更新自變量的方程對初始增廣矩陣進行矩陣變換,重復s41~s43,直至方程不再變化,此時方程中的自變量即為與缺失數據關聯性較大的自變量。
37、優選地,s5中將缺失數據作為因變量,選取不同數量的鄰近微型空氣質量監測站數據中與缺失數據關聯性較大的數據作為自變量,確定作為自變量的鄰近微型空氣質量監測站數量,包括:
...
【技術保護點】
1.一種微型空氣質量監測站的異常數據識別修正方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S1中獲取目標微型空氣質量監測站的空氣質量監測數據,并對空氣質量監測數據進行初步異常數據剔除,形成初步數據樣本,包括:
3.根據權利要求2所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S2中采用隔離森林算法對初步數據樣本中的潛在異常數據進行進一步識別,包括:
4.根據權利要求3所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:所述計算路徑長度,包括:
5.根據權利要求3所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S3中對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,根據整合后數據篩選出與缺失數據線性相關的自變量,包括:
6.根據權利要求5所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:所述空間地理距離d采用下式計算:
7.根據權利要求5所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S32中基于相關性分析根據整合后數據篩選出與缺失數據線性相關的自變量,包括:
8.根據權利要求5所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S4中計算缺失數據與鄰近微型空氣質量監測站數據之間的顯著性,確定與缺失數據關聯性較大的自變量,包括:
9.根據權利要求8所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:S5中將缺失數據作為因變量,選取不同數量的鄰近微型空氣質量監測站數據中與缺失數據關聯性較大的數據作為自變量,確定作為自變量的鄰近微型空氣質量監測站數量,包括:
...
【技術特征摘要】
1.一種微型空氣質量監測站的異常數據識別修正方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:s1中獲取目標微型空氣質量監測站的空氣質量監測數據,并對空氣質量監測數據進行初步異常數據剔除,形成初步數據樣本,包括:
3.根據權利要求2所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:s2中采用隔離森林算法對初步數據樣本中的潛在異常數據進行進一步識別,包括:
4.根據權利要求3所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:所述計算路徑長度,包括:
5.根據權利要求3所述的微型空氣質量監測站的異常數據識別修正方法,其特征在于:s3中對目標微型空氣質量監測站及其鄰近微型空氣質量監測站的數據進行整合,根據整合后數據篩選出與缺失數...
【專利技術屬性】
技術研發人員:況志強,王明,呂祚坤,徐緯煜,王耀東,汪建筑,張帥,
申請(專利權)人:合肥中科光博量子科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。