【技術實現步驟摘要】
本專利技術屬于無線傳感器網絡
,特別是一種基于強化學習的無線傳感器網絡協同跟蹤方法。
技術介紹
現代化戰爭中,由于戰場環境惡劣,作戰態勢瞬息萬變,作戰指揮員需要及時掌握敵方部隊的裝備及人員的位置信息,進而明確敵方的作戰意圖。在復雜地形地物條件及嚴密偽裝的情況下,對地面目標進行跟蹤成為了光學偵查和雷達偵查的盲區。然而,無線傳感器網絡則可以通過探測人員及裝備在地面運動時發出的聲響、引起的地面震動或紅外輻射變化來發現與跟蹤地面運動目標,因此,無線傳感器網絡協同跟蹤方法成為了當前的研究熱點。無線傳感器節點具有獨立的探測、計算及通信能力,但是由于節點個體存在能量有限、資源有限和計算能力有限的約束,傳感器節點獨立對目標進行跟蹤往往無法獲得預期的效果。網絡需要通過合理的節點調度方法來延長工作壽命。WSN協同跟蹤中普遍采用開啟跟蹤目標附近傳感器節點而其他節點休眠的工作形式,如何在保證跟蹤精度的前提下盡可能降低網絡能量消耗成為了當今學術界研究的關鍵問題。WSN協同跟蹤問題是一種在跟蹤精度與能量消耗雙重約束下的最優問題,因此可以使用常用的最優求解方法對其進行處理。用于WSN協同跟蹤問題處理的典型最優求解方法包括自然啟發式協同跟蹤方法、博弈論協同跟蹤方法以及強化學習協同跟蹤方法三種。JenaRK等人于2014年提出基于人工蜂群算法的無線傳感器網絡節點自組織方法,該方法由于考慮了群體中全局最優搜索的情況,因而能夠獲得最優解 ...
【技術保護點】
一種基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,包括以下步驟:第一步,根據無線傳感器網絡建立能量模型及跟蹤精度模型。第二步,根據探測概率門限及傳感器節點探測概率計算動態感知簇需要的最少簇成員個數。第三步,選擇與目標位置的歐氏距離不大于節點探測半徑內的所有節點進行Q值函數計算,將信息效用函數的值作為獎懲標準,從而獲得令Q值最大的最優動作策略,此時獲取的節點即為簇首。簇成員選擇與簇首間歐氏距離不大于通訊半徑的所有節點,通過將各節點信息效用函數值從大到小依次排列,選取函數值最大的最少簇成員個數的節點作為簇成員。第四步,判斷跟蹤精度誤差是否達到精度誤差門限,若精度誤差大于門限值,則采樣時間間隔選為最小采樣時間間隔;若精度誤差滿足門限要求,則根據Q值函數計算獲得的最優策略對采樣時間間隔進行增減,最終獲得最優采樣時間間隔。第五步,根據動態感知簇獲得的運動目標位置信息,通過擴展卡爾曼濾波算法對目標的狀態進行估計,進而實現WSN協同跟蹤任務。
【技術特征摘要】
1.一種基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,包括以下步驟:
第一步,根據無線傳感器網絡建立能量模型及跟蹤精度模型。
第二步,根據探測概率門限及傳感器節點探測概率計算動態感知簇需要的最少簇成員
個數。
第三步,選擇與目標位置的歐氏距離不大于節點探測半徑內的所有節點進行Q值函數
計算,將信息效用函數的值作為獎懲標準,從而獲得令Q值最大的最優動作策略,此時獲取
的節點即為簇首。簇成員選擇與簇首間歐氏距離不大于通訊半徑的所有節點,通過將各節
點信息效用函數值從大到小依次排列,選取函數值最大的最少簇成員個數的節點作為簇成
員。
第四步,判斷跟蹤精度誤差是否達到精度誤差門限,若精度誤差大于門限值,則采樣時
間間隔選為最小采樣時間間隔;若精度誤差滿足門限要求,則根據Q值函數計算獲得的最優
策略對采樣時間間隔進行增減,最終獲得最優采樣時間間隔。
第五步,根據動態感知簇獲得的運動目標位置信息,通過擴展卡爾曼濾波算法對目標
的狀態進行估計,進而實現WSN協同跟蹤任務。
2.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
所述的簇首選擇方法,具體是,在簇首選擇時應滿足各節點與目標間的歐氏距離r不大于節
點的探測半徑RD,假設滿足條件的節點個數為J時,可以定義Q值函數如下:
Q t + 1 ( s t , a t ) = ( 1 - α ) Q t ( s t , a t ) + α ( r t + γ m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 1 ) ]]>其中,st表示當前作為簇首的節點編號j;at表示對應的動作,具有保持與更新兩種形
式。
3.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
所述的簇首選擇回報函數,具體是,回報函數如下:
其中,表示基于馬氏距離的信息效用函數,用于刻畫節點跟蹤能力
的強弱。
4.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
所述的簇首切換方法,具體是,根據簇首能量有限及對目標的跟蹤受到簇成員探測半徑RD的限制,定義Q值函數如下:
Q k + 1 ( s k , a k ) = ( 1 - α ) Q k ( s k , a k ) + α ( r k + γ m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 3 ) ]]>其中,sk表示當前簇首工作模式;ak表示簇首采用的動作,具有保持與切換兩種形式。當
選擇保持動作時,sk=0,簇首工作在探測模式;當選擇切換動作時,sk=1,簇首工作在切換
模式。
5.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
所述的簇首切換回報函數,具體是,回報函數如下:
r C C ( k ) = { 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) ...
【專利技術屬性】
技術研發人員:丁勇,張祺琛,柏茂羽,胡忠旺,
申請(專利權)人:南京航空航天大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。