【技術實現步驟摘要】
本專利技術屬于智能電網和人工智能相結合的,具體涉及一種基于安全深度強化學習的日內理想調度智能決策方法。
技術介紹
1、近年來,全球氣候問題與能源安全問題日益嚴峻,全球各國都在積極尋求應對策略。風、光等新能源憑借其清潔、可再生的優勢,是實現“雙碳”目標的重要助力,構建以風、光等新能源為主體的新型電力系統已經成為電力行業低碳化轉型的重要手段。
2、然而,在電力系統轉型的過程中,電力系統的不確定性問題也日益凸顯。在能源側,高比例的風電、光伏等新能源接入電網,由于其發電能力受天氣條件的影響較大,出力表現出強不確定性與隨機性,給電網的穩定性帶來了挑戰。在負荷側,隨著電動汽車的大規模接入,以及用戶側分布式光伏、儲能設備的快速發展,電力負荷特性變得更加復雜,表現出較強的隨機性和不確定性。因此,在電力系統的低碳化轉型過程中,如何應對源荷雙側的不確定性,確保電力系統的安全、穩定、經濟運行,已經成為亟待解決的關鍵問題。
3、針對源荷雙側存在的不確定性問題,目前常用的方法有模糊優化法、隨機優化法、魯棒優化法、分布魯棒優化法,但這些不確定優化方法計算復雜、求解時間長,且最終得到的是靜態優化結果,在實際應用中仍需根據實際情況進行動態調整。
4、為解決這些不確定優化方法所存在的問題,基于人工智能的調度計劃生成方法成為了研究熱點之一。目前常用的人工智能方法有深度學習與深度強化學習。深度學習需要大量訓練樣本,但交流潮流模型具有非凸性,難以身長大量高質量訓練樣本。深度強化學習則可以通過不斷探索,在沒有先驗知識的情況下學習最優策
5、專利文獻cn114662798b公開的一種基于電網經濟運行域的調度方法及裝置、電子設備,包括確定制定電網調度計劃需要考慮的不確定性因素和調度目標;根據所述不確定性因素和調度目標滾動刻畫電網經濟運行域,并根據實際工程需要選擇電網經濟運行域形態;根據所述電網經濟運行域形態,基于所述電網經濟運行域實時計算最優調度計劃。該方法中的經濟運行域中可能存在一些不滿足安全約束的情況,最終輸出的動作需要進行修正。
技術實現思路
1、鑒于現有技術中存在的上述技術問題,本專利技術到的目的是提供一種基于安全深度強化學習的日內理想調度智能決策方法,在提高智能體訓練效率的同時提升智能體動作的可靠性。
2、為實現上述專利技術目的,實施例提供了一種基于安全深度強化學習的日內理想調度智能決策方法,包括以下步驟:
3、獲取電網日前調度計劃的集合,并結合日內新能源出力數據、負荷數據及氣象觀測數據,對日前調度計劃集合進行修正,獲得日內調度計劃集合。
4、依據電網日內運行的要求,構造用于訓練智能體的獎勵函數與代價函數。
5、基于安全深度強化學習理論,利用構造好的獎勵函數與代價函數對日內理想調度決策智能體進行訓練。
6、利用訓練好的日內理想調度決策智能體,結合日內調度計劃集合,滾動生成日內理想調度策略。
7、在一個實施例中,所述方法還包括:依據日內新能源出力數據、負荷數據及氣象觀測數據,進一步縮小源荷不確定范圍,并結合電力平衡約束、潮流約束等物理約束,對日前調度計劃集合進行修正,剔除其中不滿足安全約束的調度計劃,獲得日內調度計劃集合。
8、在一個實施例中,所述方法包括:從最小化運行成本、最小化碳排放量、最大化新能源消納量等角度出發,依據電網日內運行的實際需求,構造合適的獎勵函數用于日內理想調度決策智能體的訓練。
9、在一個實施例中,所述方法包括:基于修正后得到的日內調度計劃集合構造代價函數,當智能體執行的動作不在調度計劃集合范圍內時,給出一個較大的代價。
10、在一個實施例中,所述基于安全深度強化學習理論訓練日內理想調度決策智能體包括:引入安全深度強化學習方法,利用智能體的探索能力來優化電網調度。該方法在確保經濟運行的同時,考慮了潮流限制、節點電壓限制和線路傳輸功率限制等物理安全約束。
11、在一個實施例中,所述方法包括:構造的獎勵函數與代價函數,對智能體進行訓練,使得智能體能夠在滿足安全約束的前提下,最大化電網的經濟效益。通過多輪的訓練,智能體能夠學習到一種安全經濟的電網調度策略。
12、在一個實施例中,所述日內理想調度結果為滿足電網各類安全約束的前提下,面向源荷雙側不確定性且最大化經濟效益的調度計劃。所述經濟效益包括:最小化運行成本、最小化碳排放量、最大化新能源消納量等。
13、在一個實施例中,所述日內理想調度結果生成方法包括:通過訓練好的日內理想調度決策智能體,結合日內調度計劃集合,滾動生成日內理想調度策略。
14、與現有技術相比,本專利技術具有的有益效果至少包括:
15、在結合日內新能源出力數據、負荷數據、氣象觀測數據對日前調度計劃集合修正后得到的日內調度計劃集合的基礎上,基于安全深度強化學習理論訓練日內理想調度決策智能體,即在訓練過程中基于日內調度計劃集合構建代價函數,這樣能夠提高智能體的訓練效率,并使智能體能夠快速生成理想調度結果,支撐電網日內調度決策。
本文檔來自技高網...【技術保護點】
1.一種基于安全深度強化學習的日內理想調度智能決策方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟一中依據電力平衡約束、潮流約束等物理約束,對日前調度計劃集合進行修正,剔除其中不滿足安全約束的調度計劃,獲得修正后的日內調度計劃集合。
3.根據權利要求2所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,基于修正后的日內調度計劃集合構造代價函數,當智能體執行的動作不在調度計劃集合范圍內時,給出較大的代價。
4.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟二中依據最小化運行成本、最小化碳排放量、最大化新能源消納量等,構造所述獎勵函數。
5.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟三中引入安全深度強化學習方法,利用智能體的探索能力來優化電網調度,在確保經濟運行的同時,結合潮流限制、節點電壓限制和線路傳輸功率限制等物理安全約束。
6.根據權利要求1所述的基于電網經濟運
7.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟四中所述日內理想調度策略是滿足電網各類安全約束的前提下,面向源荷雙側不確定性且最大化經濟效益的調度計劃;所述經濟效益包括:最小化運行成本、最小化碳排放量、最大化新能源消納量。
...【技術特征摘要】
1.一種基于安全深度強化學習的日內理想調度智能決策方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟一中依據電力平衡約束、潮流約束等物理約束,對日前調度計劃集合進行修正,剔除其中不滿足安全約束的調度計劃,獲得修正后的日內調度計劃集合。
3.根據權利要求2所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,基于修正后的日內調度計劃集合構造代價函數,當智能體執行的動作不在調度計劃集合范圍內時,給出較大的代價。
4.根據權利要求1所述的基于電網經濟運行域的日內理想調度智能決策方法,其特征在于,步驟二中依據最小化運行成本、最小化碳排放量、最大化新能源消納量等,構造所述獎勵函數。
5.根據權利要求1...
【專利技術屬性】
技術研發人員:朱炳銓,孫文多,谷煒,沈曦,童存智,錢凱洋,劉晟源,黃啟航,黃剛,馮斌,郭創新,徐越乙,李知藝,
申請(專利權)人:國網浙江省電力有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。