• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于強化學習的無線傳感器網絡協同跟蹤方法技術

    技術編號:13456322 閱讀:47 留言:0更新日期:2016-08-03 09:14
    本發明專利技術公布了一種基于強化學習的無線傳感器網絡協同跟蹤方法,主要解決了無線傳感器網絡協同跟蹤過程中跟蹤精度與能量消耗矛盾的問題。所述方法包括:采用Q學習方法,對協同跟蹤過程中的簇首及簇成員進行了最優選擇;通過制定簇首選擇及切換強化學習函數與回報函數,得出了簇首最優選擇策略及最優切換時機;在保證跟蹤精度的前提下,通過減少簇成員個數和動態選擇采樣時間間隔的方式降低了網絡能量消耗。該方法在滿足跟蹤精度的前提下,通過減少簇內成員的使用數量以及采樣次數,從而減少了節點的能量消耗,進而延長了網絡的工作壽命。

    【技術實現步驟摘要】

    本專利技術屬于無線傳感器網絡
    ,特別是一種基于強化學習的無線傳感器網絡協同跟蹤方法
    技術介紹
    現代化戰爭中,由于戰場環境惡劣,作戰態勢瞬息萬變,作戰指揮員需要及時掌握敵方部隊的裝備及人員的位置信息,進而明確敵方的作戰意圖。在復雜地形地物條件及嚴密偽裝的情況下,對地面目標進行跟蹤成為了光學偵查和雷達偵查的盲區。然而,無線傳感器網絡則可以通過探測人員及裝備在地面運動時發出的聲響、引起的地面震動或紅外輻射變化來發現與跟蹤地面運動目標,因此,無線傳感器網絡協同跟蹤方法成為了當前的研究熱點。無線傳感器節點具有獨立的探測、計算及通信能力,但是由于節點個體存在能量有限、資源有限和計算能力有限的約束,傳感器節點獨立對目標進行跟蹤往往無法獲得預期的效果。網絡需要通過合理的節點調度方法來延長工作壽命。WSN協同跟蹤中普遍采用開啟跟蹤目標附近傳感器節點而其他節點休眠的工作形式,如何在保證跟蹤精度的前提下盡可能降低網絡能量消耗成為了當今學術界研究的關鍵問題。WSN協同跟蹤問題是一種在跟蹤精度與能量消耗雙重約束下的最優問題,因此可以使用常用的最優求解方法對其進行處理。用于WSN協同跟蹤問題處理的典型最優求解方法包括自然啟發式協同跟蹤方法、博弈論協同跟蹤方法以及強化學習協同跟蹤方法三種。JenaRK等人于2014年提出基于人工蜂群算法的無線傳感器網絡節點自組織方法,該方法由于考慮了群體中全局最優搜索的情況,因而能夠獲得最優解,但算法本身仍具有陷入局部最優解的可能以及收斂速度慢的缺點。LinX-H等人于2015年提出基于博弈論的無線傳感器網絡能量消耗平衡方法,進而實現網絡性能指標的最優求解。但是,使用博弈論的思想對無線傳感器網絡協同跟蹤問題進行求解時,由于難以選擇合適的近似博弈模型,因而得到的結果往往并非是真正適合網絡的最優解。S.Pino-Povedano等人于2014年提出基于強化學習的無線傳感器網絡協同跟蹤方法,進而實現減少網絡能量消耗的目的。該方法具有必然能夠獲取最優解的優勢,但仍存在著尋優過程較長的缺陷。
    技術實現思路
    本專利技術所解決的技術問題在于提供一種基于強化學習的無線傳感器網絡協同跟蹤方法(ReinforcementLearningCollaborativeTrackingAlgorithm,RLCTA)。實現本專利技術目的的技術解決方案為:基于強化學習的無線傳感器網絡協同跟蹤算法包括動態節點選擇與目標狀態估計兩部分。首先,采用動態聯盟的思想,通過目標運動觸發機制,在目標附近建立無線傳感器網絡動態感知簇,通過制定簇首選擇及切換強化學習函數與回報函數,得出了簇首最優選擇策略及最優切換時機。在保證跟蹤精度的前提下,通過減少簇成員個數和動態選擇采樣時間間隔的方式降低了網絡能量消耗。然后,根據動態感知簇獲得的運動目標位置信息,通過擴展卡爾曼濾波算法對目標的狀態進行估計,進而實現WSN協同跟蹤任務。本專利技術與現有技術相比具有以下優點:1.通過Q學習方法獲得簇首最優動作策略,進行最優簇首切換及簇成員的最優選擇;在滿足跟蹤精度的前提下,通過減少簇成員個數和動態選擇采樣時間間隔降低網絡能耗。2.針對無線傳感器網絡協同跟蹤中的能量消耗問題,建立跟蹤精度誤差門限以及探測概率門限,進而確定了簇成員最少使用個數,在此基礎上建立動態感知簇,從而保證了跟蹤精度允許誤差范圍內的能量消耗最小。下面結合附圖對本專利技術作進一步詳細描述。附圖說明圖1為本專利技術的流程圖。圖2為無線傳感器網絡協同跟蹤仿真場景圖。圖3為跟蹤誤差比較圖。圖4為算法能耗對比圖。具體實施方式依據附圖,對本專利技術的技術方案作具體說明。所述基于強化學習的無線傳感器網絡協同跟蹤方法,包括以下步驟:步驟1、首先,對無線傳感器網絡進行能量模型建立。根據使用形式不同,消耗能量可以分為四類基本類型:傳感器探測能量消耗Es,節點發射數據能量消耗Et,節點接收數據能量消耗Er以及節點進行數據融合能量消耗Ef。Es與使用傳感器進行探測的次數有關,每進行一次探測消耗的能量為一常數。Et和Er均與進行通信的數據量有關,當發射(接收)b比特數據時,消耗能量可以分別表示為: E t ( s m , s n ) = ( e t + e d r m n β ) b - - - ( 1 ) ]]>Er(sk)=erb(2)其中,sm表示數據發射節點,sn表示數據接收節點,et表示射頻能耗系數,ed表示電路放大系數,rmn表示節點m與節點n之間的歐氏距離,β表示路徑衰減系數;er表示射頻消耗系數。Ef與參與數據融合的數據量大小有關,當融合b比特數據時,消耗能量可以表示為:Ef=efb(3)其中,ef表示融合單位比特數據時消耗的能量。考慮跟蹤精度約束對模型的影響,定義跟蹤精度門限為Φ0,探測概率門限θd。為了保證跟蹤精度滿足要求,k時刻跟蹤精度誤差Φ(k)與探測概率Pr(k)需要滿足:Φ(k)≤Φ0(4)Pr(k)≤θd(5)步驟2、選取簇成員個數。簇成員個數的選擇與探測概率Pr(k)有關。對網絡覆蓋區域的運動目標進行跟蹤時,假設需要M個節點同時進行探測,每個節點的探測概率均設為α,則此時的探測概率可以表示為:Pr(k)=1-(1-α)M(6)由式(5)和(6)可得簇成員個數為: M ≥ - l o g ( 1 - θ d ) - l o g ( 本文檔來自技高網
    ...

    【技術保護點】
    一種基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,包括以下步驟:第一步,根據無線傳感器網絡建立能量模型及跟蹤精度模型。第二步,根據探測概率門限及傳感器節點探測概率計算動態感知簇需要的最少簇成員個數。第三步,選擇與目標位置的歐氏距離不大于節點探測半徑內的所有節點進行Q值函數計算,將信息效用函數的值作為獎懲標準,從而獲得令Q值最大的最優動作策略,此時獲取的節點即為簇首。簇成員選擇與簇首間歐氏距離不大于通訊半徑的所有節點,通過將各節點信息效用函數值從大到小依次排列,選取函數值最大的最少簇成員個數的節點作為簇成員。第四步,判斷跟蹤精度誤差是否達到精度誤差門限,若精度誤差大于門限值,則采樣時間間隔選為最小采樣時間間隔;若精度誤差滿足門限要求,則根據Q值函數計算獲得的最優策略對采樣時間間隔進行增減,最終獲得最優采樣時間間隔。第五步,根據動態感知簇獲得的運動目標位置信息,通過擴展卡爾曼濾波算法對目標的狀態進行估計,進而實現WSN協同跟蹤任務。

    【技術特征摘要】
    1.一種基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,包括以下步驟:
    第一步,根據無線傳感器網絡建立能量模型及跟蹤精度模型。
    第二步,根據探測概率門限及傳感器節點探測概率計算動態感知簇需要的最少簇成員
    個數。
    第三步,選擇與目標位置的歐氏距離不大于節點探測半徑內的所有節點進行Q值函數
    計算,將信息效用函數的值作為獎懲標準,從而獲得令Q值最大的最優動作策略,此時獲取
    的節點即為簇首。簇成員選擇與簇首間歐氏距離不大于通訊半徑的所有節點,通過將各節
    點信息效用函數值從大到小依次排列,選取函數值最大的最少簇成員個數的節點作為簇成
    員。
    第四步,判斷跟蹤精度誤差是否達到精度誤差門限,若精度誤差大于門限值,則采樣時
    間間隔選為最小采樣時間間隔;若精度誤差滿足門限要求,則根據Q值函數計算獲得的最優
    策略對采樣時間間隔進行增減,最終獲得最優采樣時間間隔。
    第五步,根據動態感知簇獲得的運動目標位置信息,通過擴展卡爾曼濾波算法對目標
    的狀態進行估計,進而實現WSN協同跟蹤任務。
    2.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
    所述的簇首選擇方法,具體是,在簇首選擇時應滿足各節點與目標間的歐氏距離r不大于節
    點的探測半徑RD,假設滿足條件的節點個數為J時,可以定義Q值函數如下:
    Q t + 1 ( s t , a t ) = ( 1 - α ) Q t ( s t , a t ) + α ( r t + γ m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 1 ) ]]>其中,st表示當前作為簇首的節點編號j;at表示對應的動作,具有保持與更新兩種形
    式。
    3.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
    所述的簇首選擇回報函數,具體是,回報函數如下:
    其中,表示基于馬氏距離的信息效用函數,用于刻畫節點跟蹤能力
    的強弱。
    4.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
    所述的簇首切換方法,具體是,根據簇首能量有限及對目標的跟蹤受到簇成員探測半徑RD的限制,定義Q值函數如下:
    Q k + 1 ( s k , a k ) = ( 1 - α ) Q k ( s k , a k ) + α ( r k + γ m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 3 ) ]]>其中,sk表示當前簇首工作模式;ak表示簇首采用的動作,具有保持與切換兩種形式。當
    選擇保持動作時,sk=0,簇首工作在探測模式;當選擇切換動作時,sk=1,簇首工作在切換
    模式。
    5.根據權利要求1所述的基于強化學習的無線傳感器網絡協同跟蹤方法,其特征在于,
    所述的簇首切換回報函數,具體是,回報函數如下:
    r C C ( k ) = { 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) ...

    【專利技術屬性】
    技術研發人員:丁勇張祺琛柏茂羽胡忠旺
    申請(專利權)人:南京航空航天大學
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码久久久久久久久| 亚洲国产精品无码一线岛国| 亚洲最大无码中文字幕| 久久亚洲AV成人无码电影| 国产精品亚洲а∨无码播放不卡| 国产精品免费无遮挡无码永久视频| 久久久久久国产精品免费无码 | 亚洲人成无码久久电影网站| 国产成人精品无码免费看| 精品少妇人妻AV无码专区不卡 | 亚洲精品无码不卡| 色欲AV永久无码精品无码| 精品无码人妻夜人多侵犯18| 亚洲中文字幕无码专区| 无码日本精品XXXXXXXXX| 亚洲AV无码乱码国产麻豆穿越| 特级无码毛片免费视频| 中字无码av电影在线观看网站| 久久老子午夜精品无码| 日韩成人无码影院| 亚洲av无码专区在线电影天堂| 小13箩利洗澡无码视频网站| 亚洲欧洲日产国码无码网站| 永久无码精品三区在线4| 极品无码国模国产在线观看| 国产精品无码专区AV在线播放| 亚洲AV无码成人专区| 久久亚洲精品成人av无码网站| 久久久无码中文字幕久...| 免费无码又爽又刺激网站直播| 四虎成人精品无码永久在线| 久久久久亚洲AV无码去区首| 亚洲国产成人精品无码一区二区| 无码人妻精品一区二区三区在线| 国产做无码视频在线观看浪潮| 国产综合无码一区二区辣椒| 狠狠躁夜夜躁无码中文字幕| 中文字幕无码人妻AAA片| 国产av永久无码天堂影院| 亚洲av成人无码久久精品| 免费A级毛片无码A∨免费|