【技術實現步驟摘要】
一種基于安全強化學習的主動配電網實時調度方法及裝置
[0001]本專利技術屬于電力系統運行控制
,特別涉及一種基于安全強化學習的主動配電網實時調度方法及裝置。
技術介紹
[0002]在我國大力發展綠色低碳經濟的背景下,大規模的分布式發電資源接入到配電網中,如分布式光伏、微型燃氣輪機和分布式儲能等。這些分布式發電資源具有清潔環保、維護簡單和方便靈活等諸多優點,提高了電力系統清潔能源的比重,也促進了配電網向主動配電網的轉型。但大規模的分布式發電資源并網改變了傳統配電網單向供電的特點,使得配電網的潮流分布難以控制,容易造成電壓不穩定;同時,分布式新能源的出力受到天氣和環境的嚴重影響,存在著巨大的波動性與不確定性,對配電網的控制與調度提出了新的挑戰。
[0003]為了充分消納這些分布式發電資源,并降低對電力系統的負面影響,主動配電網需要一套全新的實時調度策略。在保證系統安全運行的前提下,調度配網內部的多類發電資源,提升主動配電網運行的經濟性與可靠性。
[0004]主動配電網由于規模巨大、模型維護成本高、海量設備異動頻繁等原因,其精確的模型參數往往難以獲得。同時,主動配電網實時調度問題是一個高維的混合整數二次規劃問題。模型缺失以及該問題的復雜性嚴重限制了基于模型的傳統方法的性能,導致實際控制過程中偏離最優運行狀態。
[0005]強化學習作為機器學習的方法之一,通過智能體與環境的交互來學習策略并達成回報最大化的目標,可以很好地解決模型未知的問題。近年來隨著大量算法的提出以及計算能力的增強,強化學習在 ...
【技術保護點】
【技術特征摘要】
1.一種基于安全強化學習的主動配電網實時調度方法,其特征在于,包括:建立含分布式發電資源的主動配電網實時調度模型;將所述實時調度模型轉化為帶約束的馬爾科夫決策過程模型;利用強化學習算法對所述帶約束的馬爾科夫決策過程模型進行訓練,得到所述主動配電網實時調度的策略神經網絡;利用所述策略神經網絡輸出所述主動配電網實時調度的最優策略,以實現所述主動配電網的實時調度。2.根據權利要求1所述的方法,其特征在于,所述含分布式發電資源的主動配電網實時調度模型由目標函數和約束條件構成;所述目標函數為主動配電網調度成本最小化;所述約束條件包括:主動配電網的潮流約束、分布式發電資源約束和電壓約束。3.根據權利要求2所述的方法,其特征在于,所述分布式發電資源包括:微型燃氣輪機、分布式光伏和分布式儲能。4.根據權利要求3所述的方法,其特征在于,所述目標函數表達式如下:其中,T為調度周期的總時段數;C
k,mt
(t)為t時段第k臺微型燃氣輪機的運行成本,C
k,es
(t)為t時段第k臺分布式儲能的運行成本;C0(t)為t時段主動配電網和上級電網交互的成本;K
mt
為微型燃氣輪機的數量,K
es
為分布式儲能的數量;其中,C
k,mt
(t)=ρ
k,mt
P
tk,mt
????
(2)其中,P
tk,mt
為t時段第k臺微型燃氣輪機的有功出力;ρ
k,mt
為第k臺微型燃氣輪機的成本系數;其中,P
tk,es
為t時段第k臺分布式儲能的有功出力,為第k臺分布式儲能的充電成本系數,為第k臺分布式儲能的放電成本系數;其中,P
t0
為t時段主動配電網與上級電網連接的關口節點處的有功功率,ρ
buy
為從上級電網購電的價格,ρ
sell
為向上級電網售電的價格;所述主動配電網的潮流約束為:所述主動配電網的潮流約束為:
其中,令主動配電網為一個無向圖G,該無向圖中包含N個節點,每個節點分別對應主動配電網中一條母線;節點0為參考節點,即主動配電網與上級電網連接的關口節點;P
i
和Q
i
分別為節點i的有功注入和無功注入,V
i
為節點i的電壓幅值;G
ij
為主動配電網節點導納矩陣中第i行第j列的元素Y
ij
的實部,B
ij
為主動配電網節點導納矩陣中元素Y
ij
的虛部;θ
ij
為節點i和節點j之間的電壓相角差;所述分布式發電資源約束,包括:微型燃氣輪機約束、分布式光伏約束和分布式儲能約束;其中,微型燃氣輪機約束:微型燃氣輪機約束:微型燃氣輪機約束:其中,為t時段第k臺微型燃氣輪機的無功出力;和分別為第k臺微型燃氣輪機的有功出力上限和下限;和分別為第k臺微型燃氣輪機的無功出力上限和下限;和分別為第k臺微型燃氣輪機最大向上爬坡功率和最大向下爬坡功率;分布式光伏約束:其中,為t時段第k臺分布式光伏的有功出力,為t時段第k臺分布式光伏的無功出力,S
k,PV
為第k臺光伏發電設備的裝機容量,K
PV
為分布式光伏的數量;分布式儲能約束:分布式儲能約束:分布式儲能約束:分布式儲能約束:其中,為t時段第k臺分布式儲能的無功出力;和分別為第k臺分布式儲能的有功出力上限和下限;和分別為第k臺分布式儲能設備的無功出力上限和下限;為第k臺分布式儲能在t時段的荷電狀態;和分別為第k臺分布式儲能的電量上下限;Δt為每次充電或放電持續的時間;η為充放電的效率;所述電壓約束為:其中,V
min
和V
max
分別為節點電壓幅值的下限和上限。5.根據權利要求4所述的方法,其特征在于,所述將所述實時調度模型轉化為帶約束的
馬爾科夫決策過程模型,包括:1)構建主動配電網實時調度狀態變量:其中,s
t
為t時段主動配電網實時調度的狀態變量;和分別為t
?
1時段主動配電網內部所有節點的有功負荷和無功負荷;和分別為t
?
1時段主動配電網內部所有微型燃氣輪機的有功出力和無功出力;和分別為t
?
1時段主動配電網內部所有分布式光伏的有功出力和無功出力;和分別為t
?
1時段主動配電網內部所有分布式儲能的有功出力和無功出力;V
t
?1為t
?
1時段主動配電網內部所有節點的電壓幅值;2)構建主動配電網實時調度動作變量:其中,a
t
為t時段主動配電網實時調度的動作變量,包括:t時段主動配電網內所有微型燃氣輪機的有功出力P
tmt
和無功出力t時段主動配電網內所有分布式光伏的無功出力t時段主動配電網內所有分布式儲能的有功出力P
tes
和無功出力3)構建獎勵函數;其中,t時段的獎勵r
t
表達式如下:4)構建罰項函數;其中,t時段的罰項d
t
表達式如下:其中,[
·
]
+
為線性整流函數,即[x]
+
=max[x,0];若t時段的電壓約束式(15)被滿足,則:d
t
≤0 (20)5)構建帶約束的馬爾科夫決策過程模型;所述馬爾科夫決策過程模型由(S,A,p,R,D,γ,γ
c
)表示...
【專利技術屬性】
技術研發人員:楊旭,吳文傳,王彬,藺晨暉,孫峰洲,林毅,薛靜瑋,
申請(專利權)人:清華大學國網福建省電力有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。