The invention discloses a self-tuning control method of doubly fed induction generator based on reinforcement learning; the method based on PI vector control PI controller in the system on the RL controller, the dynamic output correction of PI controller, RL controller and RL controller including RL - P - RL - Q controller, P controller and RL Q controller of active and reactive power control signal correction. The method uses Q learning algorithm as the core algorithm of reinforcement learning, reinforcement learning, mathematical model and control the running state of the object of the algorithm is not sensitive to the learning ability, strong adaptability and robustness to parameter changes or external interference, can be output quickly and automatically optimization PI controller; the invention has good dynamic performance, significantly enhance the robustness and adaptability of the control system.
【技術實現步驟摘要】
基于強化學習算法的雙饋感應風力發電機自校正控制方法
本專利技術涉及一種雙饋感應風力發電機自校正控制,特別是涉及一種基于強化學習(ReinforcementLearning,RL)算法的雙饋感應風力發電機自校正控制方法。
技術介紹
變速恒頻雙饋發電是目前風力發電普遍采用的一種發電方式,其發電機采用雙饋感應電機(double-fedinductiongenerator,DFIG)。當機組工作在額定風速以下時,通過調節發電機轉子轉速,保持最佳葉尖速比,實現對風能的最大捕獲。其控制系統常采用基于定子磁場定向的矢量控制,實現發電機有功、無功功率的解耦控制。由于風能具有強烈的隨機性、時變性,且系統含有未建模或無法準確建模的動態部分,使雙饋發電系統成為一個多變量、非線性、強耦合系統,因此僅采用傳統矢量控制難以滿足控制系統對高適應性和高魯棒性的要求。目前有采用各種不同的控制方案,但控制效果都不是非常理想,如采用神經網絡控制方案,該控制方案改善了控制性能,但穩態誤差較大。而采用模糊滑模控制策略,將模糊控制和滑模控制相結合,雖取得了良好的控制效果,但實現較復雜。
技術實現思路
本專利技術目的在于克服現有技術的問題,提供一種能夠快速自動地優化風機控制系統的輸出,不僅實現了對風能的最大追蹤,而且具有良好的動態性能,顯著增強了控制系統的魯棒性和適應性的基于強化學習算法的雙饋感應風力發電機自校正控制方法。本專利技術目的通過如下技術方案實現:基于強化學習算法的雙饋感應風力發電機自校正控制方法:在基于PI控制的矢量控制系統中的PI控制器上增加RL控制器,動態校正PI控制器的輸出,RL控制器包 ...
【技術保護點】
基于強化學習算法的雙饋感應風力發電機自校正控制方法,其特征在于,在基于PI控制的矢量控制系統中的PI控制器上增加RL控制器,動態校正PI控制器的輸出,RL控制器包括RL?P控制器和RL?Q控制器,RL?P控制器和RL?Q控制器分別對有功和無功功率控制信號校正;該自校正控制方法包括如下步驟:S1:RL?P控制器和RL?Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ;RL?P控制器和RL?Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區間s
【技術特征摘要】
1.基于強化學習算法的雙饋感應風力發電機自校正控制方法,其特征在于,在基于PI控制的矢量控制系統中的PI控制器上增加RL控制器,動態校正PI控制器的輸出,RL控制器包括RL-P控制器和RL-Q控制器,RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正;該自校正控制方法包括如下步驟:S1:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ;RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區間sk;S2:對于所識別的區間sk,RL-P控制器或RL-Q控制器根據該sk所對應的動作概率分布用隨機函數輸出動作αk,得RL-P控制器或RL-Q控制器輸出的校正信號;對于動作α相應的被選擇的概率的集合構成概率分布,每個區間s有其對應的概率分布Ps(a);對于RL-P控制器,動作值αk與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值iqs*,即有功功率的控制信號;對于RL-Q控制器,動作值αk與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值ids*,即無功功率的控制信號;S3:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區間sk+1;S4:RL控制器由獎勵函數獲得立即獎勵值rk;獎勵函數設計為:式中值是動作集A的指針,該指針為第k次動作值α在動作集A中的序號,μ1和μ2為平衡前后各平方項的權重值,其數值均為通過大量仿真實驗調試所得;S5:基于Q值迭代公式更新Q矩陣;Q函數為一種期望折扣獎勵值,Q學習的目的是估計最優控制策略的Q值,設Qk為最優值函數Q*的第k次迭代值,Q值迭代公式設計為:式中α、γ為折扣因子,其數值均為通過大量仿真實驗調試所得;S6:根據動作選擇策略更新公式更新動作概率分布;利用一種追蹤算法設計動作選擇策略,策略基于概率分布,初始化時,賦予各狀態下每個可行動作相等的被選概率,隨著迭代的進行,概率隨Q值表格的變化而變化;RL控制器找出狀態sk下具有最高Q值的動作ag,ag稱為貪婪動作;動作概率分布的迭代公式為:和分別為第k次迭代時sk狀態和非sk狀態下選擇動作a的概率;β為動作搜索速度,其數值通過大量仿真實驗調試所得;S7:令k=k+1,并返回步驟S2;根據動作概率分布選擇并輸出動作αk+1,被選擇的動作與PI控制器的輸出信號相疊加產生相應的定子電流給定值信號,即功率控制信號,并按順序依次執行接下來的步驟不斷循環,在經過多次的迭代后,每個狀態s存在Qsk以概率1收斂于Qs*,即獲得一個以Qs*表示...
【專利技術屬性】
技術研發人員:余濤,程樂峰,李靖,王克英,
申請(專利權)人:華南理工大學,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。