本發明專利技術公開了一種基于Deep Q?Network改進的俄羅斯方塊智能Agent學習方法,包括以下步驟:1)獲取當前游戲狀態下方塊的統計特征,根據游戲畫面采集游戲畫面每幀的統計特征序列;2)通過深度神經網絡來進行俄羅斯方塊智能Agent Q值的估計,所述Q值為俄羅斯方塊agent在采取某個action后的表現對應的獎勵分數;3)在Q值估計中,使用均方誤差定義目標函數;4)計算參數W關于損失函數的梯度:5)計算出上面的梯度后,使用SGD算法來更新參數,從而得到最優的Q值,即獲得每次交互選取使得Q值最大的動作a。本發明專利技術方法利用預定義的方塊統計特征改進了DQN網絡訓練Agent玩俄羅斯方塊的性能。
【技術實現步驟摘要】
一種基于DeepQ-Network改進的俄羅斯方塊智能Agent學習方法
本專利技術涉及人工智能技術,尤其涉及一種基于DeepQ-Network改進的俄羅斯方塊智能Agent學習方法。
技術介紹
人工智能(ArtificialIntelligence,AI)它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它旨在了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究主要是機器學習、深度學習、強化學習、包括自然語言處理、計算機視覺、感知、認知與決策等。強化學習(ReinforcementLearning,RL)任務通常使用馬爾可夫決策過程(MarkovDecisionProcess,MDP)來描述,具體而言:機器處在一個環境中,每個狀態為機器對當前環境的感知;機器只能通過動作來影響環境,當機器執行一個動作后,會使得環境按某種概率轉移到另一個狀態;同時,環境會根據潛在的獎賞函數反饋給機器一個獎賞。綜合而言,強化學習主要包含四個要素:狀態、動作、轉移概率以及獎賞函數。智能體agent在進行某個任務時,首先與environment進行交互,產生新的state,同時環境給出reward,如此循環下去,agent和environment不斷交互產生更多新的數據。強化學習算法就是通過一系列動作策略與環境交互,產生新的數據,再利用新的數據去修改自身的動作策略,經過數次迭代后,agent就會學習到完成任務所需要的動作策略。近年來,深度學習快速崛起,已經在圖像識別、語音識別、推薦系統等各方面取得了突出的進步,其通過多層網絡結構和激活函數,將特征一層層抽象,形成易于表述和區分的高層特征,深度強化學習的發展得益于深度學習的快速發展,與傳統強化學習的差別是估值函數變成了深度神經網絡,這一改變使得對特征的提取更為豐富準確,也讓端到端學習變成了可能。俄羅斯方塊是一款經典的益智型游戲,如何在游戲中實現智能旋轉、下落并且擺放到合適的位置上,是人工智能領域的一個熱門研究課題,國外很多學者已經做了相關研究,其中比較有名的是PierreDellacherie算法,但在我國,相關研究較少。正如許多問題可以利用強化學習來解決,比如無人機飛行,一個連續的問題,需要時時刻刻來引導它作出決策,對它每次一動作給予相應的回報,表現較差的動作用需要用負回報來糾正,合理的動作用正回報來鼓勵,智能體通過學習從而改進自身的行為策略。那么是否能通過強化學習來訓練一個智能Agent來玩俄羅斯方塊呢?本專利技術就是結合DeepQ-Network(DQN)和預定義方塊的統計特征實現了一種穩健、自學習式的俄羅斯方塊智能Agent學習方法。
技術實現思路
本專利技術要解決的技術問題在于用傳統的DQN算法實現的俄羅斯方塊AI表現較差,,本專利技術結合DQN和預定義的統計特征設計了一種新的網絡結構,從而增強了DQN算法在俄羅斯方塊游戲AI上的游戲性能。本專利技術解決上述技術問題所采用的技術方案是:一種基于DeepQ-Network改進的俄羅斯方塊智能Agent學習方法,包括以下步驟:(1)獲取當前游戲狀態下方塊的統計特征,根據游戲畫面采集游戲畫面每幀的統計特征序列,其中,統計特征序列包括:空洞數、板塊高度、消行數、列井深和、顛簸、列高和;(2)通過深度神經網絡來進行俄羅斯方塊智能AgentQ值的估計,所述Q值為俄羅斯方塊agent在采取某個action后的表現對應的獎勵分數,具體如下:所述深度神經網絡的結構為:用于輸入方塊統計特征序列的Dense全連接層與DQN網絡的拼接;Q值的估計表示為:Q(s,a,w)≈Qπ(s,a)其中,s代表當前的環境,由游戲畫面最近4幀(4*10*20)的灰度圖輸入到2個卷積層然后展平成一維向量,和游戲畫面最近4幀的方塊統計特征序列經過Dense全連接層編碼后做concat拼接而來;最后接一個Dense層輸出動作a與s交互時對應的Q值;a代表從潛在action空間中選取的當前動作,潛在action空間包括旋轉(↑)、左移(←)、右移(→)和下降(↓);w為神經網絡的參數;(3)在Q值估計中,使用均方誤差meansquareerror來定義目標函數,也就是網絡的損失函數lossfunction:L(w)=E[(r+γ·maxa′Q(s′,a′,w)-Q(s,a,w))2]經驗回放每次存一個四元組到緩存中,對(s,a,r,s’)來說,下一個有了狀態s’后,新的四元組變為(s’,a’,r’,s”)。這個新的四元組中的s’,a’以及本次獎勵r,作為目標值,即r+r*maxQ(s’,a’,w)來和前一次狀態的Q(s,a,w)求均方誤差,并對從經驗回放區中取出的一個小批量m的均方誤差求數學期望,以此作為網絡的損失函數。網絡優化目標即將該期望最小化。可以看到使用了Q-Learning要更新的Q值作為目標值。有了目標值,又有了當前值,那么損失函數就能通過均方誤差進行計算;式中,s′、a′表示下一個狀態和動作,L(w)為神經網絡的損失函數,E()表示一個批量中目標Q值和估計Q值均方誤差函數的數學期望。r為在狀態s‘下,采取動作a’,時得到的獎勵,γ為超參數,表示衰減因子(4)計算參數w關于損失函數的梯度:(5)計算出上面的梯度后,使用SGD算法來更新參數w,從而得到最優的Q值,即獲得每次交互選取使得Q值最大的動作a。按上述方案,所述步驟(1)中統計特征具體如下:空洞數:堆疊完成的方塊組成的聚集體中存在的空洞個數;板塊高度:某方塊放置后,該方塊距離游戲面板底部的高度;列井深和:每列中“井”深度之和,“井”指兩邊都由方塊填充的空列;顛簸:每一列高度差的總和;列高和:每一列高度的總和;消行數:消除的總行數。按上述方案,所述步驟3)中,獎勵r根據游戲表現的消行數確定,具體如下:消1行得10分;消2行得20分;消3行得100分;消4行得500分;沒有發生消行得0分;游戲結束得-1000分。本專利技術產生的有益效果是:本專利技術所提出的網絡,對游戲畫面中的俄羅斯方塊狀態特征進行了顯示定義,將預定義的特征序列作為指導條件輸入到全連接網絡進行表征,并將之與DQN網絡所接收的全局特征作concat操作后一起輸入到后續網絡結構中得到經過統計特征序列指導后動作空間的Q值,從而強化了DQN對全局畫面狀態有用特征的抽取能力。本專利技術利用預定義的方塊統計特征改進了DQN網絡訓練Agent玩俄羅斯方塊的性能,這僅依賴于少量的先驗知識,可以從原始圖像像素學習到最佳策略,比未引進方塊統計特征的DQN方法有更好的游戲性能,具體表現在存活時間更長,游戲得分更高。附圖說明下面將結合附圖及實施例對本專利技術作進一步說明,附圖中:圖1是本專利技術實施例的方法流程示意圖;圖2是本文檔來自技高網...
【技術保護點】
1.一種基于Deep Q-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,包括以下步驟:/n1)獲取當前游戲狀態下方塊的統計特征,根據游戲畫面采集游戲畫面每幀的統計特征序列,其中,統計特征序列包括:空洞數、板塊高度、消行數、列井深和、顛簸、列高和;/n2)通過深度神經網絡來進行俄羅斯方塊智能Agent Q值的估計,所述Q值為俄羅斯方塊agent在采取某個action后的表現對應的獎勵分數,/n具體如下:/n所述深度神經網絡的結構為:用于輸入方塊統計特征序列的Dense全連接層與DQN網絡的拼接;/nQ值的估計表示為:/nQ(s,a,w)≈Q
【技術特征摘要】
1.一種基于DeepQ-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,包括以下步驟:
1)獲取當前游戲狀態下方塊的統計特征,根據游戲畫面采集游戲畫面每幀的統計特征序列,其中,統計特征序列包括:空洞數、板塊高度、消行數、列井深和、顛簸、列高和;
2)通過深度神經網絡來進行俄羅斯方塊智能AgentQ值的估計,所述Q值為俄羅斯方塊agent在采取某個action后的表現對應的獎勵分數,
具體如下:
所述深度神經網絡的結構為:用于輸入方塊統計特征序列的Dense全連接層與DQN網絡的拼接;
Q值的估計表示為:
Q(s,a,w)≈Qπ(s,a)
其中,s代表當前的環境,由游戲畫面最近4幀(4*10*20)的灰度圖輸入到2個卷積層然后展平成一維向量,和游戲畫面最近4幀的方塊統計特征序列經過Dense全連接層編碼后做concat拼接而來;最后接一個Dense層輸出動作a與s交互時對應的Q值;a代表從潛在action空間中選取的當前動作,潛在action空間包括旋轉、左移、右移和下降;
w為神經網絡的參數;
3)在Q值估計中,使用均方誤差來定義目標函數,也就是網絡的損失函數;
4)計算參數w關于損失函數的梯度:
5)根據計算出的梯度,使用SGD算法來更新參數w,從而得到最優的Q值,即獲得每次交互選取使得Q值最大的動作a。
2.根據權利要求1所述的基于DeepQ-Network改進的俄羅斯方塊智能Agent學習方法,其特征在于,所述步驟1)中統計特征具體如下:
空洞數:堆疊完成...
【專利技術屬性】
技術研發人員:曹寬,唐存琛,畢翔,
申請(專利權)人:武漢大學,
類型:發明
國別省市:湖北;42
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。