• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    光伏發電柔性功率點追蹤控制方法、裝置和系統制造方法及圖紙

    技術編號:36691064 閱讀:62 留言:0更新日期:2023-02-27 19:58
    本發明專利技術提出了一種光伏發電柔性功率點追蹤控制方法,包括以下步驟:S1、將光伏模型的電源決策模塊作為強化學習的智能體,并針對光伏模型中光伏發電柔性功率點進行智能追蹤;S2、基于智能體的反饋信號與環境互動,強化學習算法調整和改善智能決策行為,決策出柔性功率點最優追蹤策略;S3、智能體通過與環境交互,決策出最優調度策略,以在不斷變化的環境中追蹤光伏發電柔性功率點。本發明專利技術可以在環境條件突變的情況下,能夠快速、精確的追蹤到光伏發電的柔性功率點,不易出現誤判現象,而且也適用于環境條件固定、無先驗知識的情況。無先驗知識的情況。無先驗知識的情況。

    【技術實現步驟摘要】
    光伏發電柔性功率點追蹤控制方法、裝置和系統


    [0001]本專利技術涉及光伏發電柔性功率點追蹤的
    ,尤其涉及一種基于強化學習的光伏發電柔性功率輸出的控制裝置和方法。

    技術介紹

    [0002]近年來光伏行業一直在探索和應用不同的方法來尋找光伏發電最大功率點,而光伏電站發電功率具有較強的隨機性和波動性,且受天氣及地域的影響較大,單純追求最大功率也容易產生功率輸出不穩定的情況;且大規模光伏集中接入電網后必然會對系統熱穩定、暫態穩定、電壓穩定、頻率穩定及電能質量產生影響。為了保障電力系統的安全穩定運行,光伏發電的安全穩定成為了首要考慮的問題之一,光伏發電柔性功率輸出控制的研究也開始誕生和發展。傳統方法控制簡單,但難以應對快速劇烈變化的環境條件,當環境條件復雜變化時控制精度較差。

    技術實現思路

    [0003]本專利技術提出了一種伏發電柔性功率點追蹤控制方法、裝置和系統,能夠克服傳統方法難以應對快速變換的復雜環境條件和容易出現誤判的問題。
    [0004]為了達到上述目的,本專利技術提出了一種光伏發電柔性功率點追蹤控制方法,包括以下步驟:
    [0005]S1、將光伏模型的電源決策模塊作為強化學習的智能體,并針對光伏模型中光伏發電柔性功率點進行智能追蹤;
    [0006]S2、基于智能體的反饋信號與環境互動,強化學習算法調整和改善智能決策行為,決策出柔性功率點最優追蹤策略;
    [0007]S3、智能體通過與環境交互,決策出最優調度策略,以在不斷變化的環境中追蹤光伏發電柔性功率點。
    [0008]進一步地,所述智能體基于動作價值函數的Actor
    ?
    Critic架構,包括四個網絡,即演員網絡、演員目標網絡、批評家網絡和批評家目標網絡;其中演員網絡學習策略函數π,評論家網絡學習動作價值函數Q;動作值函數和動作函數分別由深度神經網絡Q(s
    t
    ,a
    t

    Q
    )和μ(s
    t

    μ
    )訓練得到,其中θ
    Q
    與θ
    μ
    對應了批評家網絡和演員網絡中的各層各節點的權值與偏差的參數;演員網絡的參數θ
    μ
    可以通過梯度方法更新:
    [0009][0010]其中為偏導數,J為演員網絡參數關于回報期望的分布,ρ
    β
    為狀態s
    t
    所服從的分布。
    [0011]評論家網絡Critic通過隨機梯度下降來最小化損失函數:
    [0012]L(θ
    Q
    )=E
    (s,a)
    [(Q(s
    t
    ,a
    t

    Q
    )
    ?
    y
    t
    )2],
    [0013]y
    t
    =r
    t
    (s
    t
    ,a
    t
    )+γQ(s
    t+1
    ,μ(s
    t

    μ
    )|θ
    Q
    )。
    [0014]其中L(θ
    Q
    )為損失函數,y
    t
    為預期回報,r
    t
    為當前狀態動作下的獎勵,γ為衰減率,一般取0.9~1。
    [0015]進一步地,所述針對光伏模型中光伏發電柔性功率點進行智能追蹤的方法,包括以下步驟:將光伏發電柔性功率點智能追蹤過程建模描述為馬爾科夫決策過程,基于馬爾科夫決策過程建立基于DDPG強化學習算法的光伏發電柔性功率點追蹤的環境模型、狀態空間模型、動作空間模型、獎勵函數模型和神經網絡模型。
    [0016]進一步地,所述步驟2包括以下步驟:
    [0017]S2.1、設定相對應的任務目標;
    [0018]S2.2、智能體通過動作與環境進行交互;
    [0019]S2.3、強化學習算法利用所述智能體和環境交互的數據進行訓練,修改自身的動作策略;
    [0020]S2.4、經過數次迭代后,最終得到相應任務的最優追蹤策略。
    [0021]進一步地,所述強化學習算法包括訓練模型,所述訓練模型包括:
    [0022]以(狀態、行為、獎勵、下一個狀態)構成的元組(s
    t
    、a
    t
    、r
    t
    、s
    t
    ?1、s
    t
    ?2)為樣本進行訓練,使起始分布J=E(R
    t
    )的預期回報最大化,其中s
    t
    為當前的狀態,a
    t
    為當前狀態下執行的動作,r
    t
    為在執行動作后獲得的即時獎勵,s
    t
    ?1為上一時刻狀態,s
    t
    ?2為前一時刻狀態;
    [0023]用狀態動作值函數Q
    π
    (s,a)來表示在狀態s
    t
    下遵循策略π采取動作a
    t
    時得到獎勵R
    t
    的期望:
    [0024]引入獎勵和折扣因子構建強化學習貝爾曼方程為:
    [0025]該目標值函數是當前動作獲得的獎勵加上下一步動作獲得的最大期望價值,其中r(s
    t
    ,a
    t
    )為執行動作后獲得的即時獎勵,γ為折扣因子,取值范圍為[0,1],根據未來獎勵在學習中的重要性而設定。
    [0026]進一步地,對強化學習算法進行訓練的方法包括以下步驟:
    [0027]S2.3.1:在每個時間步長上,智能體觀測環境量包含狀態s
    t
    ,s
    t
    ?1,s
    t
    ?2,動作a
    t
    和獎勵函數r
    t

    [0028]S2.3.2:智能體在當前狀態s
    t
    下采取動作a
    t
    并通過動作函數A轉移到下一狀態s
    t+1
    :s
    t+1
    =A(s
    t
    ,a
    t
    );
    [0029]S2.3.3:環境模型根據當前狀態s
    t
    、執行動作a
    t
    和下一狀態s
    t+1
    通過獎勵函數R:r
    t
    =R(s
    t
    ,a
    t
    ,s
    t+1
    )返回;
    [0030]S2.3.4:將Q
    π
    (s,a)稱為狀態
    ?
    動作值函數Q
    π
    (s,a)=E
    π
    [G
    t
    |S
    t
    =s,A
    t
    =a],表征智能體在某一狀態s及某一動作a下做出相應策略的價值;
    [0031]S2.3.5:當智能體在某一狀態s采用動作后,通過定義累計回報來衡量狀態s做出動作的價值V(s)=E[G
    t
    |S
    t
    =s];
    [0032]其中,所述價值函數V為從該狀態開始本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種光伏發電柔性功率點追蹤控制方法,其特征在于,包括以下步驟:S1、將光伏模型的電源決策模塊作為強化學習的智能體,并針對光伏模型中光伏發電柔性功率點進行智能追蹤;S2、基于智能體的反饋信號與環境互動,強化學習算法調整和改善智能決策行為,決策出柔性功率點最優追蹤策略;S3、智能體通過與環境交互,決策出最優調度策略,以在不斷變化的環境中追蹤光伏發電柔性功率點。2.如權利要求1所述的光伏發電柔性功率點追蹤控制方法,其特征在于,所述智能體基于動作價值函數的Actor
    ?
    Critic架構,包括四個網絡,即演員網絡、演員目標網絡、批評家網絡和批評家目標網絡;其中演員網絡學習策略函數π,評論家網絡學習動作價值函數Q;動作值函數和動作函數分別由深度神經網絡Q(s
    t
    ,a
    t

    Q
    )和μ(s
    t

    μ
    )訓練得到,其中θ
    Q
    與θ
    μ
    對應了批評家網絡和演員網絡中的各層各節點的權值與偏差的參數;演員網絡的參數θ
    μ
    可以通過梯度方法更新:其中,為偏導數,J為演員網絡參數關于回報期望的分布,ρ
    β
    為狀態s
    t
    所服從的分布;評論家網絡通過隨機梯度下降來最小化損失函數:L(θ
    Q
    )=E
    (s,a)
    [(Q(s
    t
    ,a
    t

    Q
    )
    ?
    y
    t
    )2],y
    t
    =r
    t
    (s
    t
    ,a
    t
    )+γQ(s
    t+1
    ,μ(s
    t

    μ
    )|θ
    Q
    )其中,L(θ
    Q
    )為損失函數,y
    t
    為預期回報,r
    t
    為當前狀態動作下的獎勵,γ為衰減率,一般取0.9~1。3.如權利要求1所述的光伏發電柔性功率點追蹤控制方法,其特征在于,所述針對光伏模型中光伏發電柔性功率點進行智能追蹤的方法,包括以下步驟:將光伏發電柔性功率點智能追蹤過程建模描述為馬爾科夫決策過程,基于馬爾科夫決策過程建立基于DDPG強化學習算法的光伏發電柔性功率點追蹤的環境模型、狀態空間模型、動作空間模型、獎勵函數模型和神經網絡模型。4.如權利要求1所述的光伏發電柔性功率點追蹤控制方法,其特征在于,所述步驟S2包括以下步驟:S2.1、設定相對應的任務目標;S2.2、智能體通過動作與環境模型進行交互;S2.3、強化學習算法利用所述智能體和環境模型交互的數據進行訓練,修改自身的動作策略;S2.4、經過數次迭代后,最終得到相應任務的最優追蹤策略。5.如權利要求4所述的光伏發電柔性功率點追蹤控制方法,其特征在于,所述強化學習算法包括訓練模型,所述訓練模型包括:以(狀態、行為、獎勵、下一個狀態)構成的元組(s
    t
    、a
    t
    、r
    t
    、s
    t
    ?1、s
    t
    ?2)為樣本進行訓練,使起始分布J=E(R
    t
    )的預期回報最大化,其中s
    t
    為當前的狀態,a
    t
    為當前狀態下執行的動作,
    r
    t
    為在執行動作后獲得的即時獎勵,s
    t
    ?1為上一時刻狀態,s
    t
    ?2為前一時刻狀態;用動作值函數Q
    π
    (s,a)來表示在狀態s
    t
    下遵循策略π采取動作a
    t
    時得到獎勵R
    t
    的期望:引入獎勵和折扣因子構建強化學習貝爾曼方程為:該目標值函數是當前動作獲得的獎勵加上下一步動作獲得的最大期望價值,其中r(s
    t
    ,a
    t
    )為執行動作后獲得的即時獎勵,γ為折扣因子,取值范圍為[0,1],根據未來獎勵在學習中的重要性而設定。6.如權利要求5所述的光伏發電柔性功率點追蹤控制方法,其特征在于,對...

    【專利技術屬性】
    技術研發人員:張佳杰金欣茹范佳張文博王嵐青李鵬輝陳乃娟張江濤夏云飛張燕華倪杏斐張小芳陳少霞張偉陽周潔
    申請(專利權)人:中國電建集團裝備研究院有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码日韩精品一区二区人妻| 国产乱人伦中文无无码视频试看| 亚洲Av无码国产情品久久 | 国产Av激情久久无码天堂| 熟妇人妻无码中文字幕| 精品无码国产AV一区二区三区| 亚洲中文字幕无码爆乳AV| 亚洲无码一区二区三区| 亚洲桃色AV无码| 一本久道中文无码字幕av| 免费无码成人AV在线播放不卡| 国产免费AV片无码永久免费| 久久人妻少妇嫩草AV无码专区 | 精品无码久久久久久久动漫| 日韩精品无码一本二本三本| 韩国免费a级作爱片无码| 亚洲AV无码专区在线厂| 在线观看无码AV网站永久免费| 国产成人无码一区二区在线观看| 精品无码成人网站久久久久久| 亚洲国产日产无码精品| 无码少妇一区二区| 亚洲成A人片在线观看无码不卡 | 中文字幕精品无码一区二区三区| 亚洲AV永久无码精品放毛片| 精品久久久久久无码专区| 98久久人妻无码精品系列蜜桃| 亚洲精品无码成人AAA片| 亚洲精品无码专区久久久| 中文字幕精品无码一区二区三区| 国产日韩精品无码区免费专区国产| 成人免费无码大片A毛片抽搐| 亚洲av纯肉无码精品动漫| 亚洲精品无码av中文字幕| 92午夜少妇极品福利无码电影| 亚洲va成无码人在线观看| 亚洲日韩AV无码一区二区三区人 | 国产精品成人无码免费| 日韩AV无码精品一二三区| 黑人无码精品又粗又大又长| 在线a亚洲v天堂网2019无码 |