本發明專利技術涉及一種可解釋的自動駕駛決策系統及其方法,該系統包括自動駕駛決策模塊和DeepSHAP模塊,該方法包括:根據駕駛場景,確定自動駕駛決策模塊的決策向量以及狀態向量,并構建深度Q網絡模型;從交通環境中提取出關鍵特征向量,輸入深度Q網絡模型,輸出得到對應的決策指令,并傳輸給車輛控制模塊執行、同時車載感知模塊輸出相應背景數據集;將背景數據集與深度Q網絡模型共同作為DeepSHAP模塊的輸入,由DeepSHAP模塊計算出背景數據集中所有特征的Shapley value,并傳輸至車載人機交互單元進行展示。與現有技術相比,本發明專利技術能夠從局部解釋、全局解釋和特征依賴分析三個方面向用戶直觀解釋自動駕駛決策的輸入與輸出映射關系,提高用戶對自動駕駛決策的理解與信任。提高用戶對自動駕駛決策的理解與信任。提高用戶對自動駕駛決策的理解與信任。
【技術實現步驟摘要】
一種可解釋的自動駕駛決策系統及其方法
[0001]本專利技術涉及自動駕駛
,尤其是涉及一種可解釋的自動駕駛決策系統及其方法。
技術介紹
[0002]高度自動化駕駛被認為是未來智能出行的趨勢,因為它可以減少人力和成本,提高安全性和可靠性,減少排放和能源消耗。目前,自動駕駛汽車中的大多數決策系統都使用預先設計好的、人工輸入密集的、高度模塊化的基于規則/模型的算法。
[0003]然而,在現實環境中,基于規則/模型的框架很難將人類啟發式策略推廣到無窮無盡的新場景和任務中,導致這種決策方式受到極大限制;另一方面,結合了強化學習和深度學習的深度強化學習已經成為最近人工智能領域的熱點,并在自動駕駛汽車方面展現出驚人的潛力,如深度強化學習已成功地訓練智能賽車,使其比人類頂級賽車手駕駛的更好,或訓練智能環境,加速測試和評估過程。盡管深度強化學習技術在自動駕駛應用方面取得了突破性的進展,但基于深度強化學習的自動駕駛決策技術能否在現實世界中成功部署,很大程度上還是取決于用戶的接受度和信任度。由于深度強化學習中使用的神經網絡具有黑匣子性質,使得社會公眾對其仍然存在質疑。因此,有必要設計可解釋框架,能夠向用戶解釋基于深度強化學習的自動駕駛決策,從而增強駕乘人員對自動駕駛系統的信任度。
技術實現思路
[0004]本專利技術的目的就是為了克服上述現有技術存在的缺陷而提供一種可解釋的自動駕駛決策系統及其方法,能夠向用戶直觀解釋自動駕駛決策的輸入與輸出映射關系,提高用戶對自動駕駛決策的理解與信任。
[0005]本專利技術的目的可以通過以下技術方案來實現:一種可解釋的自動駕駛決策系統,包括自動駕駛決策模塊和DeepSHAP模塊,所述自動駕駛決策模塊分別與車輛控制模塊、車載感知模塊、DeepSHAP模塊相連接,所述DeepSHAP模塊與車載人機交互單元相連接,所述自動駕駛決策模塊基于深度Q網絡模型,結合車載感知模塊采集的交通環境特征向量,輸出得到相應的決策指令、并傳輸給車輛控制模塊執行;
[0006]所述DeepSHAP模塊用于計算由深度Q網絡模型與交通環境交互產生數據對應的Shapley value,并傳輸給車載人機交互單元進行展示。
[0007]進一步地,所述車輛控制模塊包括橫向控制模塊和縱向控制模塊。
[0008]一種可解釋的自動駕駛決策方法,包括以下步驟:
[0009]S1、根據駕駛場景,確定自動駕駛決策模塊的決策向量以及狀態向量,并采用深度Q網絡算法訓練神經網絡,構建深度Q網絡模型;
[0010]S2、從交通環境中提取出關鍵特征向量,輸入深度Q網絡模型,輸出得到對應的決策指令,并傳輸給車輛控制模塊執行;
[0011]S3、車輛控制模塊執行決策指令的同時,車載感知模塊輸出相應背景數據集;
[0012]S4、將背景數據集與深度Q網絡模型共同作為DeepSHAP模塊的輸入,由DeepSHAP模塊計算出背景數據集中所有特征的Shapley value,并傳輸至車載人機交互單元進行展示。
[0013]進一步地,所述步驟S1中駕駛場景為典型雙車道駕駛場景,確定出自動駕駛決策模塊的決策集合具體為:
[0014]A={a
left
,a
idle
,a
right
}
[0015]其中,A為決策集合,a
left
表示左換道,a
idle
表示保持當前動作,a
right
表示右換道;
[0016]自動駕駛決策模塊的狀態向量具體為:
[0017]S=[n
ego
,n
lat
,d][0018][0019][0020]其中,S為狀態向量,d表示自車與周車的相對距離,n
ego
表示自車所在車道,n
lat
表示周車所在車道。
[0021]進一步地,所述步驟S1中構建深度Q網絡模型的具體過程為:
[0022]采用深度Q網絡算法訓練神經網絡,以近似動作價值函Q(s
t
,a
t
),其中,神經網絡為4層全連接網絡,在深度Q網絡算法中,Q(s
t
,a
t
)定義為從t時刻開始,以狀態s
t
為輸入,在策略π下采取決策a
t
所獲得的累計回報:
[0023][0024]r=w1r1+w2r2[0025][0026][0027]其中,γ∈(0,1)表示折扣因子,r為獎勵函數,r1表示碰撞懲罰,w1為r1對應的權重,r2表示換道懲罰,w2為r2對應的權重。
[0028]進一步地,所述步驟S2中關鍵特征向量包括自車所在車道、周車所在車道、自車與周車之間的距離。
[0029]進一步地,所述步驟S2的具體過程為:根據車載感知模塊采集的當前狀態數據,從環境中提取出關鍵的特征向量,通過貪婪策略選取出使得Q函數最大的決策,以作為自動駕駛車輛的當前決策,進而將決策量傳遞給車輛控制模塊執行。
[0030]進一步地,所述步驟S4中DeepSHAP模塊的工作過程為:
[0031]給定一個參考特征向量r,一個被解釋特征向量x和對應模型v(
·
),得到:
[0032]Δy=v(x)
?
v(r)
[0033]Δx
i
=x
i
?
r
i
[0034]其中,x
i
表示第i個特征,r
i
表示第i個參考特征;
[0035]采用一個L層的前饋神經網絡v
NN
(
·
)來表示模型v(x):
[0036][0037][0038]其中,g
l
(
·
)表示具有n
l
個神經元的第l個神經網絡層;
[0039]再通過鏈式法則和線性近似,計算得到特征重要性值,即Shapley value。
[0040]進一步地,所述Shapley value具體為:
[0041][0042][0043][0044]其中,為第i個特征的Shapley value,表示在第l層的第j
l
個神經元關于第i個特征x
i
的Shapley value,表示第l層的第j
l
個神經元對應的乘子,表示對第i個特征x
i
的累積乘子。
[0045]進一步地,若前饋神經網絡的神經元為線性函數則通過以下公式進行Shapley value的計算:
[0046]Linear:
[0047]若前饋神經網絡的神經元為ReLU激活函數則通過以下公式進行Shapley value的計算:
[0048]ReLU:
[0049]與現有技術相比,本專利技術通過設置自動駕駛決策模塊和DeepSHAP模塊,利用本文檔來自技高網...
【技術保護點】
【技術特征摘要】
其中,γ∈(0,1)表示折扣因子,r為獎勵函數,r1表示碰撞懲罰,w1為r1對應的權重,r2表示換道懲罰,w2為r2對應的權重。6.根據權利要求3所述的一種可解釋的自動駕駛決策方法,其特征在于,所述步驟S2中關鍵特征向量包括自車所在車道、周車所在車道、自車與周車之間的距離。7.根據權利要求3所述的一種可解釋的自動駕駛決策方法,其特征在于,所述步驟S2的具體過程為:根據車載感知模塊采集的當前狀態數據,從環境中提取出關鍵的特征向量,通過貪婪策略選取出使得Q函數最大的決策,以作為自動駕駛車輛的當前決策,進而將決策量傳遞給車輛控制模塊執行。8.根據權利要求3所述的一種可解釋的自動駕駛決策方法,其特征在于,所述步驟S4中DeepSHAP模塊的工作過程為:給定一個參考特征向量r,一個被解釋特征向量x和對應模型v(
·
),得到:Δy=v(x)
?
v(r)Δx
i
=x
i
?
r
i
其中,x
i
表示第i個特征,r
i
表示第i個參考特征;采用一個L層的前饋神經...
【專利技術屬性】
技術研發人員:陳虹,崔志浩,李蒙,黃巖軍,王宇雷,
申請(專利權)人:同濟大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。