【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及群體智能控制,尤其涉及一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置。
技術(shù)介紹
1、多機(jī)器人系統(tǒng)控制,尤其是多機(jī)器人pe(pursuit-evasion,追捕-逃逸)博弈,在群體協(xié)作、博弈決策、生物集群分析等諸多領(lǐng)域發(fā)揮著愈發(fā)重要的作用。在多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)際應(yīng)用中,常見的解決方案是基于完全中心化結(jié)構(gòu),將所有智能體視為一個(gè)超級(jí)智能體,把每個(gè)智能體的行動(dòng)組合成一個(gè)聯(lián)合行動(dòng)。并且,大多數(shù)博弈問題的研究都集中在地面或空中機(jī)器人上。
2、然而,在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的?博弈策略仍然是一個(gè)艱難的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置,用以解決現(xiàn)有技術(shù)中在具有高度非線性特征的水下環(huán)境中探索多仿生機(jī)器人的博弈策略仍然是一個(gè)艱難的挑戰(zhàn)這一問題。
2、本專利技術(shù)提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,包括:
3、獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息,所述多智能體包括圍捕者以及逃逸者;
4、基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);
5、基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略。
6、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述動(dòng)作信息包括主導(dǎo)所述
7、所述基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,包括:
8、基于所述振蕩頻率、所述轉(zhuǎn)彎偏移角度,確定所述多智能體在水下環(huán)境中受到的合力。
9、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:
10、對(duì)所述合力對(duì)應(yīng)的動(dòng)能進(jìn)行求偏導(dǎo),得到所述多智能體的動(dòng)量信息;
11、基于所述合力,以及所述多智能體的動(dòng)量信息,確定所述多智能體的加速度信息;
12、基于所述多智能體的加速度信息,確定所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);
13、所述游動(dòng)狀態(tài)包括智能體的坐標(biāo)、游動(dòng)速度以及姿態(tài)。
14、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:
15、基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到共享博弈策略;
16、將所述共享博弈策略作為最終的圍捕逃逸博弈策略,所述最終的圍捕逃逸博弈策略用于在執(zhí)行階段,基于各智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),以及所述最終的圍捕逃逸博弈策略,確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。
17、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,包括:
18、基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì);
19、基于最大化累計(jì)所述策略獎(jiǎng)勵(lì),分別確定所述各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息。
20、根據(jù)本專利技術(shù)提供的一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì),包括:
21、基于所述智能體中圍捕者、逃逸者的坐標(biāo),以及預(yù)設(shè)的博弈規(guī)則,確定上一時(shí)刻的抓捕獎(jiǎng)勵(lì);
22、基于智能體的坐標(biāo)以及智能體的運(yùn)動(dòng)邊界,確定上一時(shí)刻的邊界獎(jiǎng)勵(lì);
23、基于所述智能體中圍捕者、逃逸者的坐標(biāo),確定上一時(shí)刻的強(qiáng)化博弈獎(jiǎng)勵(lì);
24、基于所述抓捕獎(jiǎng)勵(lì)、所述邊界獎(jiǎng)勵(lì)、所述強(qiáng)化博弈獎(jiǎng)勵(lì),確定所述上一時(shí)刻的策略獎(jiǎng)勵(lì)。
25、本專利技術(shù)還提供一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練裝置,包括:
26、獲取單元,獲取多智能體在上一時(shí)刻的博弈策略中的動(dòng)作信息,所述多智能體包括圍捕者以及逃逸者;
27、狀態(tài)轉(zhuǎn)移單元,基于所述動(dòng)作信息,確定所述多智能體在水下環(huán)境中受到的合力,對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài);
28、博弈單元,基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略。
29、本專利技術(shù)還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
30、本專利技術(shù)還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
31、本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
32、本專利技術(shù)提供的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法及裝置,獲取多智能體在上一時(shí)刻的博弈策略的動(dòng)作信息,通過構(gòu)建流體動(dòng)力模型以及動(dòng)力學(xué)模型,構(gòu)建面向水下場景的狀態(tài)轉(zhuǎn)移模型,實(shí)現(xiàn)多智能體的狀態(tài)轉(zhuǎn)移,得到多智能體在下一時(shí)刻的博弈策略,進(jìn)而訓(xùn)練得到最終的面向水下場景的圍捕逃逸博弈策略,能夠有效實(shí)現(xiàn)不同水下智能體之間的圍捕逃逸任務(wù)。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率,以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度;
3.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:
5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,包括:
6.根據(jù)權(quán)利要求5所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的全局游動(dòng)狀態(tài),確定上一時(shí)刻的策略獎(jiǎng)勵(lì),包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法。
...【技術(shù)特征摘要】
1.一種水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述動(dòng)作信息包括主導(dǎo)所述多智能體運(yùn)動(dòng)的神經(jīng)元信號(hào)的振蕩頻率,以及所述多智能體尾鰭的轉(zhuǎn)彎偏移角度;
3.根據(jù)權(quán)利要求1所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述對(duì)所述合力進(jìn)行運(yùn)動(dòng)學(xué)分析,得到所述多智能體在當(dāng)前時(shí)刻的游動(dòng)狀態(tài),包括:
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于所述當(dāng)前時(shí)刻的游動(dòng)狀態(tài),確定所述多智能體在下一時(shí)刻的博弈策略中的動(dòng)作信息,直至得到最終的圍捕逃逸博弈策略,包括:
5.根據(jù)權(quán)利要求4所述的水下多智能體圍捕逃逸博弈策略的訓(xùn)練方法,其特征在于,所述基于全部的智能體當(dāng)前時(shí)刻的游動(dòng)狀態(tài),分別確定各智能體在下一時(shí)刻的博弈策略中的動(dòng)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:馮育凱,吳正興,王健,譚民,
申請(qǐng)(專利權(quán))人:中國科學(xué)院自動(dòng)化研究所,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。