【技術實現步驟摘要】
本專利技術涉及概念漂移檢測,具體而言,尤其涉及一種基于共形鞅框架的半監督概念漂移檢測與適應方法。
技術介紹
1、在有色金屬冶煉中,鋁是一種重要的有色金屬,廣泛應用于交通運輸、建筑材料、電力傳輸及航天工業等眾多領域。在鋁的生產過程中,氧化鋁作為重要原料扮演了關鍵角色。拜耳法是目前生產氧化鋁的主要工藝,其中蒸發過程是一個十分關鍵的工序。蒸發過程主要通過濃縮一定水溶液并控制出料堿液濃度(即naoh濃度),以及通過蒸發器析出雜質溶質,從而提升產品質量。在這一工業生產過程中,naoh濃度對最終產品質量具有決定性影響,準確預測naoh濃度進行監測成為生產控制的關鍵。然而,在動態工業環境中,經常遭遇概念漂移以及高昂的數據標注成本等挑戰。其中概念漂移是指數據的統計特性隨時間發生變化,進而可能導致模型性能下降的現象。為了克服這些挑戰,概念漂移檢測技術和半監督學習方法被廣泛采用,以減輕模型性能衰減及數據標注成本高昂的問題。因此,開發一個及時準確地檢測概念漂移和處理數據標注成本問題的方法是當前該領域的研究重點和技術挑戰。
2、在處理工業場景中標簽數據獲取成本高的問題時,自訓練策略是一種有效的半監督學習方法。在自訓練策略中,通過選擇高可靠性樣本并為其生成偽標簽來優化學習過程。其中,高可靠性樣本的精準選取尤為關鍵。在分類問題中,可以依據輸出的分類概率直接進行判斷;然而,在回歸問題中缺乏一個直接的衡量指標。在分類問題中,共形預測框架的引入為高可靠性樣本的選取提供了一種有效的方式。由于其非一致性得分的計算形式具有靈活性,這一框架不僅適用于分類問題
3、在概念漂移檢測的研究領域中,主要分為基于統計檢驗、基于模型性能監控以及基于數據分布分析的方法。盡管這些方法已在分類任務中得到廣泛應用,但針對回歸任務的概念漂移檢測技術的研究仍相對不足。共形鞅框架在分類問題中的應用展示了其在處理概念漂移檢測上的潛力。同樣由于在非一致性得分計算上的靈活性,該框架也為回歸問題的概念漂移檢測提供了一種有效工具。此外,與傳統方法相比,基于共形鞅框架的方法不依賴于數據分布的任何假設,使其能夠適應各種實際應用場景。該方法對新數據的敏感性和實時反應能力,確保了其在動態環境下的有效性。
4、在動態工業環境中,高昂的數據標注成本常使得標簽數據無法及時獲取,從而對預測模型的性能產生影響。此外,概念漂移的存在可能會導致模型性能出現衰減。雖然現有的概念漂移檢測技術在分類任務中已被廣泛應用,但針對回歸任務的研究仍相對不足。目前,仍缺乏一個能同時處理高昂的數據標注成本和概念漂移檢測的統一框架。
技術實現思路
1、根據上述提出的技術問題,提供一種基于共形鞅框架的半監督概念漂移檢測與適應方法。本專利技術及時檢測和適應概念漂移,同時克服高昂的數據標注成本挑戰。
2、本專利技術采用的技術手段如下:
3、一種基于共形鞅框架的半監督概念漂移檢測與適應方法,包括:
4、s1、從工業傳感器中采集氧化鋁蒸發過程變量x和數據標簽y,構成氧化鋁蒸發過程的數據集并對所有數據集進行劃分和標準化預處理操作;
5、s2、根據氧化鋁蒸發過程的數據集的實際特性,構建初始回歸模型,使用有標簽數據集訓練初始回歸模型,并對無標簽數據集進行預測;
6、s3、基于共形預測框架,計算無標簽數據點的預測區間及其寬度,設定閾值δ,并選取寬度小于設定閾值δ的數據點,形成高可靠性樣本集;
7、s4、將高可靠性樣本集與原有標簽數據集合并,形成新的擴展訓練集,并使用新的擴展訓練集對回歸模型進行更新;
8、s5、將步驟s4中更新后的回歸模型用于計算校準集和測試集的非一致性得分、p值和鞅值,并設定閾值γ,若鞅值超過閾值γ,則判定發生了概念漂移;
9、s6、使用概念漂移發生之后的數據重新訓練回歸模型,得到新的模型來適應后續的數據;
10、s7、采用平均絕對誤差和均方誤差作為評價指標,分別計算在引入高可靠性訓練集前后以及測試集概念漂移檢測與適應前后的mae和mse,以評估方法的有效性。
11、進一步地,步驟s1,具體包括:
12、s11、將數據集d={x,y}劃分為訓練集dtrain,dtrain={(x1,y1),…,(xm,ym)}和校準集dcal,dcal={(xm+1,ym+1),…,(xn,yn)};并準備測試集tdata={(xn+1,yn+1),…,(xn+q,yn+q)},q≥1;在數據集d={x,y}中,表示特征矩陣,表示目標變量;
13、s12、將訓練集、校準集和測試集中的特征進行標準化處理,如下:
14、
15、其中,xij表示特征矩陣在第i個樣本的第j個特征的原始值;μj表示第j個特征所有樣本的均值,σj表示第j個特征所有樣本的標準差,x'ij表示標準化后的值,得到各數據集標準化后的特征集。
16、進一步地,步驟s2,具體包括:
17、s21、根據實際數據集特性選擇回歸模型f,并使用有標簽數據集dl訓練回歸模型f;
18、s22、使用訓練好的回歸模型f對無標簽數據集du中的每個數據點進行預測,得到預測結果f(xi),xi∈du。
19、進一步地,步驟s3,具體包括:
20、s31、根據步驟s22中得到的預測結果,使用共形預測框架為每個預測值計算預測區間及其寬度,計算公式如下:
21、
22、其中,表示測試集樣本的非一致性得分按降序排列的第個值,
23、s32、計算非一致性得分,計算公式如下:
24、
25、其中,μi表示ln(|yi-f(xi)|)的預測值;
26、s33、設置一個閾值δ,選擇預測區間寬度小于閾值δ的數據點,形成一個高可靠性樣本集uhigh_conf。
27、進一步地,步驟s4,具體包括:
28、s41、將步驟s33中得到的高可靠性樣本集uhigh_conf與原有的有標簽數據集dl合并,形成新的擴展訓練集dtrain_expanded;
29、s42、使用新的擴展訓練集dtrain_expanded對回歸模型進行更新。
30、進一步地,步驟s5,具體包括:
31、s51、對測試集中的每個數據點tdata[i],基于共形鞅框架計算每個數據點的鞅值m[i],初始化鞅值序列m[0]=1;
32、s52、針對測試集中的樣本點,利用校準集dcal和測試集tdata的非一致性得分,計算測試集中每個樣本點的p值,計算公式如下:
33、
34、其中,θ表示一個位于區間[0,1]內的隨機數,n-m表示校準集中數據點的數量;
35、s53、基于p值序列,構建鞅值序列,如下:
36、
37、其中,ε∈(0,1),表示測試集中第j個本文檔來自技高網...
【技術保護點】
1.一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,包括:
2.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S1,具體包括:
3.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S2,具體包括:
4.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S3,具體包括:
5.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S4,具體包括:
6.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S5,具體包括:
7.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S6,具體包括:
8.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟S7,具體包括:
【技術特征摘要】
1.一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,包括:
2.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟s1,具體包括:
3.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟s2,具體包括:
4.根據權利要求1所述的一種基于共形鞅框架的半監督概念漂移檢測與適應方法,其特征在于,步驟s3,具體包括:
5.根據權...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。