System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品无码久久久久久久久 ,国产午夜无码片在线观看,日韩AV无码久久一区二区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)技術(shù)方案

    技術(shù)編號:44454611 閱讀:3 留言:0更新日期:2025-02-28 19:00
    本發(fā)明專利技術(shù)公開一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng),該方法步驟包括:步驟S01.構(gòu)建非線性機(jī)器人的線性增量模型以及構(gòu)建Q函數(shù);步驟S02.使用預(yù)先收集的訓(xùn)練數(shù)據(jù)迭代求解控制輸入增量所對應(yīng)的最優(yōu)增量策略,同時學(xué)習(xí)得到線性增量模型;步驟S03.使用學(xué)習(xí)到的線性增量模型進(jìn)行前向預(yù)測產(chǎn)生合成數(shù)據(jù)集,并加入至機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集;步驟S04.使用增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略,以對機(jī)器人進(jìn)行實時控制。本發(fā)明專利技術(shù)具有實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強等優(yōu)點,能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,改善數(shù)據(jù)偏差問題。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及機(jī)器人控制,尤其涉及一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)


    技術(shù)介紹

    1、強化學(xué)習(xí)是一種從經(jīng)驗中學(xué)習(xí)的機(jī)制。基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制是通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)控制策略,使得機(jī)器人能夠在復(fù)雜和未知的環(huán)境中實現(xiàn)自主學(xué)習(xí)和控制,這種學(xué)習(xí)機(jī)制不僅能夠提高機(jī)器人的適應(yīng)性和靈活性,還能夠降低對精確硬件校準(zhǔn)的依賴,使得機(jī)器人控制更加靈活和高效。

    2、現(xiàn)有技術(shù)中,基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制時,通常是采用先仿真器中訓(xùn)練,然后在硬件部署強化學(xué)習(xí)策略,即先仿真環(huán)境中,機(jī)器人通過與仿真器構(gòu)建的虛擬環(huán)境的交互來學(xué)習(xí)控制策略,通過強化學(xué)習(xí)算法,機(jī)器人的策略會不斷被優(yōu)化;隨后,在硬件部署階段,再將仿真環(huán)境中訓(xùn)練好的策略遷移到真實機(jī)器人的控制系統(tǒng)。但是該類先仿真器訓(xùn)練再硬件部署強化學(xué)習(xí)策略的方式遷移性能差。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)要解決的技術(shù)問題就在于:針對現(xiàn)有技術(shù)存在的技術(shù)問題,本專利技術(shù)提供一種實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng),既能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,同時改善傳統(tǒng)離線強化學(xué)習(xí)算法的數(shù)據(jù)偏差問題。

    2、為解決上述技術(shù)問題,本專利技術(shù)提出的技術(shù)方案為:

    3、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,步驟包括:

    4、步驟s01.構(gòu)建非線性機(jī)器人的線性增量模型,所述線性增量模型中包括機(jī)器人的狀態(tài)輸入 x以及控制輸入的增量,基于所述非線性機(jī)器人的線性增量模型構(gòu)建函數(shù),所述函數(shù)中包括狀態(tài)輸入 x以及控制輸入的增量;

    5、步驟s02.使用預(yù)先收集的機(jī)器人數(shù)據(jù)集迭代求解,k表示時間步,得到控制輸入的增量對應(yīng)的最優(yōu)增量策略,同時學(xué)習(xí)得到線性增量模型;

    6、步驟s03.使用步驟s02學(xué)習(xí)到的所述線性增量模型進(jìn)行前向預(yù)測產(chǎn)生狀態(tài)輸入與控制輸入的合成數(shù)據(jù)集,并加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中以對機(jī)器人數(shù)據(jù)集進(jìn)行擴(kuò)充,形成增強數(shù)據(jù)集;

    7、步驟s04.利用所述增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略,以對機(jī)器人進(jìn)行實時控制。

    8、進(jìn)一步地,構(gòu)建線性增量模型為:

    9、

    10、其中, x、 u分別表示機(jī)器人的狀態(tài)和控制輸入,表示控制輸入的增量, b表示輸入矩陣, a表示狀態(tài)轉(zhuǎn)移矩陣,k表示時間步;

    11、將線性增量模型進(jìn)行擴(kuò)展形成增廣增量系統(tǒng),構(gòu)建得到增廣后的線性增量模型為:

    12、

    13、

    14、其中, i表示單位陣,、分別表示對 a、b進(jìn)行線性增廣后得到的矩陣,為單位陣。

    15、進(jìn)一步地,構(gòu)建的所述函數(shù)的表達(dá)式為:

    16、

    17、

    18、

    19、其中, p為對稱正定矩陣, q和 r分別為狀態(tài)和輸入的代價函數(shù)權(quán)重矩陣,為增量策略矩陣;

    20、通過求解得到最優(yōu)增量策略矩陣為:

    21、

    22、得到相對應(yīng)的最優(yōu)增量策略為。

    23、進(jìn)一步地,步驟s02還包括求解矩陣 z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    24、

    25、其中,表示第j次迭代中矩陣 z的向量化表示,為懲罰函數(shù),,表示第k次迭代的懲罰函數(shù)值,表示 y( k)的向量化表示,表示 l的向量化表示, l表示數(shù)據(jù)集中的數(shù)據(jù)序號。

    26、進(jìn)一步地,的構(gòu)建步驟包括:

    27、根據(jù),,得到函數(shù)的bellman方程如下:

    28、

    29、根據(jù)得到:

    30、

    31、進(jìn)一步轉(zhuǎn)換為:

    32、

    33、

    34、最終構(gòu)建得到:。

    35、進(jìn)一步地,步驟s03包括:

    36、步驟s301.根據(jù)迭代求解得到的矩陣 z計算出,根據(jù)計算出的學(xué)習(xí)得到線性增量模型;

    37、步驟s302.根據(jù)學(xué)習(xí)得到的線性增量模型進(jìn)行前向預(yù)測得到合成數(shù)據(jù)集;

    38、步驟s303.將所述合成數(shù)據(jù)集加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集。

    39、進(jìn)一步地,步驟s301中按照式計算出,進(jìn)而確定出線性增量模型。

    40、進(jìn)一步地,步驟s302中,按照下式進(jìn)行前向預(yù)測:

    41、

    42、

    43、其中,i表示執(zhí)行前向預(yù)測的步數(shù);

    44、由預(yù)測得到的形成所述合成數(shù)據(jù)集。

    45、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng),包括處理器以及存儲器,所述存儲器用于存儲計算機(jī)程序,所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如上述方法。

    46、一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述方法。

    47、與現(xiàn)有技術(shù)相比,本專利技術(shù)的優(yōu)點在于:本專利技術(shù)通過構(gòu)建非線性機(jī)器人的線性增量模型,基于線性增量模型構(gòu)建q函數(shù),在預(yù)先收集的離線數(shù)據(jù)集上直接訓(xùn)練任務(wù)策略,經(jīng)過迭代求解得到最優(yōu)增量策略同時學(xué)習(xí)得到線性增量模型,利用學(xué)習(xí)到的線性增量模型產(chǎn)生合成數(shù)據(jù)集對預(yù)先收集的離線數(shù)據(jù)集進(jìn)行擴(kuò)充,從而增加數(shù)據(jù)的多樣性,以在線性空間通過引導(dǎo)q學(xué)習(xí)方式實現(xiàn)模型引導(dǎo)機(jī)制,能夠有效提高離線訓(xùn)練得到的策略在線部署時動態(tài)適應(yīng)性,不僅可以緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,還可以改善傳統(tǒng)離線強化學(xué)習(xí)的數(shù)據(jù)偏差問題。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:

    2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:

    3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:

    4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S02還包括求解矩陣Z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:

    6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S03包括:

    7.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S301中按照式計算出,進(jìn)而確定出線性增量模型。

    8.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S302中,按照下式進(jìn)行前向預(yù)測:

    9.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng),包括處理器以及存儲器,所述存儲器用于存儲計算機(jī)程序,其特征在于,所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如權(quán)利要求1~8中任意一項所述方法。

    10.一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~8中任意一項所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:

    2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:

    3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:

    4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟s02還包括求解矩陣z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:

    6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李聰徐昕張興龍楊一赫
    申請(專利權(quán))人:中國人民解放軍國防科技大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码区日韩特区永久免费系列| 国产精品成人无码久久久久久 | 一本久道中文无码字幕av| 人妻无码精品久久亚瑟影视| 东京无码熟妇人妻AV在线网址| 亚洲国产日产无码精品| 国产精品无码无片在线观看| 亚洲国产成人无码AV在线 | 亚洲一级Av无码毛片久久精品| 亚洲AV无码AV男人的天堂| 精品国产毛片一区二区无码 | 人妻丰满熟妇AV无码区HD| 精品国产v无码大片在线观看 | 精品久久久久久无码中文野结衣 | 国产成年无码久久久久下载| 国产精品无码无卡在线播放| 无码精品蜜桃一区二区三区WW| 久久无码人妻一区二区三区| 亚洲精品无码久久久久去q| 曰韩无码AV片免费播放不卡| 免费无码精品黄AV电影| 日韩精品无码熟人妻视频 | 人妻丰满熟妇无码区免费| 精选观看中文字幕高清无码| 无码人妻精品一区二区蜜桃AV| 亚洲av永久中文无码精品| 曰韩人妻无码一区二区三区综合部| 亚洲VA成无码人在线观看天堂| 国产成人精品一区二区三区无码| 久久亚洲中文字幕无码| 亚洲av无码日韩av无码网站冲| 高清无码午夜福利在线观看| 中文字幕韩国三级理论无码 | 亚洲国产精品无码中文字| 久久精品无码免费不卡| 永久免费av无码网站yy| 亚洲av无码国产精品夜色午夜| 日日摸日日踫夜夜爽无码| 欧洲人妻丰满av无码久久不卡| 人妻中文字幕无码专区| 亚洲日韩av无码中文|