當(dāng)前位置: 首頁 > 專利查詢>中國科學(xué)院自動(dòng)化研究所專利>正文

水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置制造方法及圖紙

技術(shù)編號(hào)：41457185 閱讀：22 留言：0更新日期：2024-05-28 20:43

本發(fā)明專利技術(shù)涉及群體智能控制技術(shù)領(lǐng)域，提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置，該方法包括：獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息；基于動(dòng)作信息確定多智能體在水下環(huán)境中受到的合力，對(duì)合力進(jìn)行運(yùn)動(dòng)學(xué)分析，得到多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)；基于當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，確定多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到圍捕逃逸博弈策略。本發(fā)明專利技術(shù)提供的方法，獲取多智能體在上一時(shí)刻的動(dòng)作信息，通過構(gòu)建流體動(dòng)力模型以及動(dòng)力學(xué)模型，構(gòu)建面向水下場景的狀態(tài)轉(zhuǎn)移模型實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移，得到在下一時(shí)刻的博弈策略，進(jìn)而得到最終的面向水下場景的圍捕逃逸博弈策略，能夠有效實(shí)現(xiàn)不同水下智能體之間的圍捕逃逸任務(wù)。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及群體智能控制，尤其涉及一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置。

技術(shù)介紹

1、多機(jī)器人系統(tǒng)控制，尤其是多機(jī)器人pe（pursuit-evasion，追捕-逃逸）博弈，在群體協(xié)作、博弈決策、生物集群分析等諸多領(lǐng)域發(fā)揮著愈發(fā)重要的作用。在多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)際應(yīng)用中，常見的解決方案是基于完全中心化結(jié)構(gòu)，將所有智能體視為一個(gè)超級(jí)智能體，把每個(gè)智能體的行動(dòng)組合成一個(gè)聯(lián)合行動(dòng)。并且，大多數(shù)博弈問題的研究都集中在地面或空中機(jī)器人上。

2、然而，在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的?博弈策略仍然是一個(gè)艱難的挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置，用以解決現(xiàn)有技術(shù)中在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的博弈策略仍然是一個(gè)艱難的挑戰(zhàn)這一問題。

2、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，包括：

3、獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息，所述多智能體包括圍捕者以及逃逸者；

4、基于所述動(dòng)作信息，確定所述多智能體在水下環(huán)境中受到的合力，對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析，得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)；

5、基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到最終的圍捕逃逸博弈策略。

6、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，所述動(dòng)作信息包括主導(dǎo)所述

7、所述基于所述動(dòng)作信息，確定所述多智能體在水下環(huán)境中受到的合力，包括：

8、基于所述振蕩頻率、所述轉(zhuǎn)彎偏移角度，確定所述多智能體在水下環(huán)境中受到的合力。

9、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析，得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，包括：

10、對(duì)所述合力對(duì)應(yīng)的動(dòng)能進(jìn)行求偏導(dǎo)，得到所述多智能體的動(dòng)量信息；

11、基于所述合力，以及所述多智能體的動(dòng)量信息，確定所述多智能體的加速度信息；

12、基于所述多智能體的加速度信息，確定所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)；

13、所述游動(dòng)狀態(tài)包括智能體的坐標(biāo)、游動(dòng)速度以及姿態(tài)。

14、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到最終的圍捕逃逸博弈策略，包括：

15、基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到共享博弈策略；

16、將所述共享博弈策略作為最終的圍捕逃逸博弈策略，所述最終的圍捕逃逸博弈策略用于在執(zhí)行階段，基于各智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，以及所述最終的圍捕逃逸博弈策略，確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。

17、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，包括：

18、基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài)，確定上一時(shí)刻的策略獎(jiǎng)勵(lì)；

19、基于最大化累計(jì)所述策略獎(jiǎng)勵(lì)，分別確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。

20、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài)，確定上一時(shí)刻的策略獎(jiǎng)勵(lì)，包括：

21、基于所述智能體中圍捕者、逃逸者的坐標(biāo)，以及預(yù)設(shè)的博弈規(guī)則，確定上一時(shí)刻的抓捕獎(jiǎng)勵(lì)；

22、基于智能體的坐標(biāo)以及智能體的運(yùn)動(dòng)邊界，確定上一時(shí)刻的邊界獎(jiǎng)勵(lì)；

23、基于所述智能體中圍捕者、逃逸者的坐標(biāo)，確定上一時(shí)刻的強(qiáng)化博弈獎(jiǎng)勵(lì)；

24、基于所述抓捕獎(jiǎng)勵(lì)、所述邊界獎(jiǎng)勵(lì)、所述強(qiáng)化博弈獎(jiǎng)勵(lì)，確定所述上一時(shí)刻的策略獎(jiǎng)勵(lì)。

25、本專利技術(shù)還提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練裝置，包括：

26、獲取單元，獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息，所述多智能體包括圍捕者以及逃逸者；

27、狀態(tài)轉(zhuǎn)移單元，基于所述動(dòng)作信息，確定所述多智能體在水下環(huán)境中受到的合力，對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析，得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)；

28、博弈單元，基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到最終的圍捕逃逸博弈策略。

29、本專利技術(shù)還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

30、本專利技術(shù)還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

31、本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

32、本專利技術(shù)提供的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置，獲取多智能體在上一時(shí)刻的博弈策略的動(dòng)作信息，通過構(gòu)建流體動(dòng)力模型以及動(dòng)力學(xué)模型，構(gòu)建面向水下場景的狀態(tài)轉(zhuǎn)移模型，實(shí)現(xiàn)多智能體的狀態(tài)轉(zhuǎn)移，得到多智能體在下一時(shí)刻的博弈策略，進(jìn)而訓(xùn)練得到最終的面向水下場景的圍捕逃逸博弈策略，能夠有效實(shí)現(xiàn)不同水下智能體之間的圍捕逃逸任務(wù)。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率，以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度；

3.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析，得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，包括：

4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，直至得到最終的圍捕逃逸博弈策略，包括：

5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息，包括：

6.根據(jù)權(quán)利要求5所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài)，確定上一時(shí)刻的策略獎(jiǎng)勵(lì)，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。

...

【技術(shù)特征摘要】

1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，包括：

5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法，其特征在于，所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài)，分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：馮育凱，吳正興，王健，譚民，
申請(qǐng)(專利權(quán))人：中國科學(xué)院自動(dòng)化研究所，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)