• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置制造方法及圖紙

    技術(shù)編號(hào):41457185 閱讀:22 留言:0更新日期:2024-05-28 20:43
    本發(fā)明專利技術(shù)涉及群體智能控制技術(shù)領(lǐng)域,提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置,該方法包括:獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息;基于動(dòng)作信息確定多智能體在水下環(huán)境中受到的合力,對(duì)合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);基于當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到圍捕逃逸博弈策略。本發(fā)明專利技術(shù)提供的方法,獲取多智能體在上一時(shí)刻的動(dòng)作信息,通過構(gòu)建流體動(dòng)力模型以及動(dòng)力學(xué)模型,構(gòu)建面向水下場景的狀態(tài)轉(zhuǎn)移模型實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移,得到在下一時(shí)刻的博弈策略,進(jìn)而得到最終的面向水下場景的圍捕逃逸博弈策略,能夠有效實(shí)現(xiàn)不同水下智能體之間的圍捕逃逸任務(wù)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及群體智能控制,尤其涉及一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置


    技術(shù)介紹

    1、多機(jī)器人系統(tǒng)控制,尤其是多機(jī)器人pe(pursuit-evasion,追捕-逃逸)博弈,在群體協(xié)作、博弈決策、生物集群分析等諸多領(lǐng)域發(fā)揮著愈發(fā)重要的作用。在多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)際應(yīng)用中,常見的解決方案是基于完全中心化結(jié)構(gòu),將所有智能體視為一個(gè)超級(jí)智能體,把每個(gè)智能體的行動(dòng)組合成一個(gè)聯(lián)合行動(dòng)。并且,大多數(shù)博弈問題的研究都集中在地面或空中機(jī)器人上。

    2、然而,在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的?博弈策略仍然是一個(gè)艱難的挑戰(zhàn)。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置,用以解決現(xiàn)有技術(shù)中在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的博弈策略仍然是一個(gè)艱難的挑戰(zhàn)這一問題。

    2、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,包括:

    3、獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息,所述多智能體包括圍捕者以及逃逸者;

    4、基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);

    5、基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略。

    6、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率,以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度;

    7、所述基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,包括:

    8、基于所述振蕩頻率、所述轉(zhuǎn)彎偏移角度,確定所述多智能體在水下環(huán)境中受到的合力。

    9、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:

    10、對(duì)所述合力對(duì)應(yīng)的動(dòng)能進(jìn)行求偏導(dǎo),得到所述多智能體的動(dòng)量信息;

    11、基于所述合力,以及所述多智能體的動(dòng)量信息,確定所述多智能體的加速度信息;

    12、基于所述多智能體的加速度信息,確定所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);

    13、所述游動(dòng)狀態(tài)包括智能體的坐標(biāo)、游動(dòng)速度以及姿態(tài)。

    14、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:

    15、基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到共享博弈策略;

    16、將所述共享博弈策略作為最終的圍捕逃逸博弈策略,所述最終的圍捕逃逸博弈策略用于在執(zhí)行階段,基于各智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),以及所述最終的圍捕逃逸博弈策略,確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。

    17、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,包括:

    18、基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì);

    19、基于最大化累計(jì)所述策略獎(jiǎng)勵(lì),分別確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。

    20、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì),包括:

    21、基于所述智能體中圍捕者、逃逸者的坐標(biāo),以及預(yù)設(shè)的博弈規(guī)則,確定上一時(shí)刻的抓捕獎(jiǎng)勵(lì);

    22、基于智能體的坐標(biāo)以及智能體的運(yùn)動(dòng)邊界,確定上一時(shí)刻的邊界獎(jiǎng)勵(lì);

    23、基于所述智能體中圍捕者、逃逸者的坐標(biāo),確定上一時(shí)刻的強(qiáng)化博弈獎(jiǎng)勵(lì);

    24、基于所述抓捕獎(jiǎng)勵(lì)、所述邊界獎(jiǎng)勵(lì)、所述強(qiáng)化博弈獎(jiǎng)勵(lì),確定所述上一時(shí)刻的策略獎(jiǎng)勵(lì)。

    25、本專利技術(shù)還提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練裝置,包括:

    26、獲取單元,獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息,所述多智能體包括圍捕者以及逃逸者;

    27、狀態(tài)轉(zhuǎn)移單元,基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);

    28、博弈單元,基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略。

    29、本專利技術(shù)還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    30、本專利技術(shù)還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    31、本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    32、本專利技術(shù)提供的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置,獲取多智能體在上一時(shí)刻的博弈策略的動(dòng)作信息,通過構(gòu)建流體動(dòng)力模型以及動(dòng)力學(xué)模型,構(gòu)建面向水下場景的狀態(tài)轉(zhuǎn)移模型,實(shí)現(xiàn)多智能體的狀態(tài)轉(zhuǎn)移,得到多智能體在下一時(shí)刻的博弈策略,進(jìn)而訓(xùn)練得到最終的面向水下場景的圍捕逃逸博弈策略,能夠有效實(shí)現(xiàn)不同水下智能體之間的圍捕逃逸任務(wù)。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率,以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度;

    3.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:

    4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:

    5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,包括:

    6.根據(jù)權(quán)利要求5所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì),包括:

    7.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練裝置,其特征在于,包括:

    8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

    ...

    【技術(shù)特征摘要】

    1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率,以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度;

    3.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:

    4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:

    5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:馮育凱,吳正興,王健,譚民
    申請(qǐng)(專利權(quán))人:中國科學(xué)院自動(dòng)化研究所,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 日韩一区二区三区无码影院| 在线高清无码A.| 亚洲AV无码一区二区三区人| 精品欧洲AV无码一区二区男男| (无码视频)在线观看| 十八禁无码免费网站| 特黄熟妇丰满人妻无码| 色综合久久中文字幕无码| 人妻无码一区二区三区| 亚洲精品无码久久久久YW| 国产成人无码区免费网站| 国产精品亚洲а∨无码播放不卡| 亚洲AV无码久久寂寞少妇| 无码精品人妻一区二区三区AV| 日韩av无码中文字幕| 日韩精品无码人成视频手机| 四虎国产精品永久在线无码| 免费A级毛片av无码| 无码少妇一区二区| 国产成人亚洲综合无码精品| 国产成人精品无码一区二区老年人| 亚洲va成无码人在线观看| 亚洲国产精品无码久久久不卡| 午夜成人无码福利免费视频| 亚洲AV无码一区二区乱子仑| 无码H黄肉动漫在线观看网站| 国产精品无码素人福利不卡| 亚洲a无码综合a国产av中文| 亚洲人成人无码.www石榴| 精品亚洲AV无码一区二区三区| 亚洲精品高清无码视频| 国产50部艳色禁片无码| 最新中文字幕AV无码不卡| 国产精品无码无在线观看| 国产V亚洲V天堂无码| 久久精品成人无码观看56| 无码国产福利av私拍| 久久精品无码一区二区WWW| 无码精油按摩潮喷在播放| 东京热一精品无码AV| 亚洲AV中文无码乱人伦|