• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種導航尋路方法、機器人及系統技術方案

    技術編號:15690178 閱讀:185 留言:0更新日期:2017-06-24 02:21
    本發明專利技術提供一種導航尋路方法、機器人及系統,所述方法通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做尋路運動,所述尋路數據根據所述采集設備在尋路應用過程中采集的數據和所述導航目標得到。本發明專利技術的導航尋路方法、機器人及系統的導航尋路的準確性更高。

    Navigation route finding method, robot and system

    The present invention provides a navigation path finding method, and robot system, the method of environmental information in the training process through acquisition equipment acquisition robot, and according to the training process of environmental information to generate training data; the training data of the depth of the reinforcement learning method to train the neural network to the depth. The depth of the trained neural network is adapted according to the routing data and decision analysis, indicating that the robot motion to wayfinding navigation target, the routing according to the data acquisition device in the navigation target and wayfinding applications in the process of collecting data. The navigation path finding method of the invention, and the accuracy of navigation and navigation of the robot and the system are higher.

    【技術實現步驟摘要】
    一種導航尋路方法、機器人及系統
    本專利技術涉及機器人
    ,尤其涉及一種導航尋路方法、機器人及系統。
    技術介紹
    在機器人
    中,機器人導航尋路的應用越來越多。機器人導航尋路是自主移動機器人導航功能的重要問題之一,機器人導航尋路的目的是使機器人在應用環境中,無碰撞的到達目的地。現有的機器人導航尋路的準確性有待提升。
    技術實現思路
    本專利技術解決的技術問題是提升機器人導航尋路的準確性。為解決上述技術問題,本專利技術實施例提供一種導航尋路方法,通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做尋路運動,所述尋路數據根據所述采集設備在尋路應用過程中采集的數據和所述導航目標得到。可選的,所述采集設備包括以下一種或多種:超聲采集設備、激光采集設備、雷達、紅外采集設備、超寬帶采集設備、攝像頭和3D體感攝影機。可選的,所述生成訓練數據的過程包括:確定所述訓練運動過程包含的至少一個運動操作,所述運動操作根據對應的運動數據的指示完成;確定每一運動操作的運動前狀態數據和運動后狀態數據,所述運動前狀態數據包括所述運動操作執行前的環境信息,所述運動后狀態數據包括所述運動操作執行后的環境信息;根據所述運動前狀態數據和所述運動后狀態數據計算反饋獎勵數值;將所述運動數據及其運動前狀態數據、運動后狀態數據以及反饋獎勵數值作為所述訓練數據。可選的,所述利用所述訓練數據訓練深度神經網絡包括:將所述訓練數據中的所述運動前狀態數據送入所述深度神經網絡并進行前向傳播,以獲取所述訓練數據中的所述運動數據的價值函數值,所述運動數據的價值函數值用于評價所述機器人進行的運動操作在導航全程中對于到達訓練目標的價值;將所述訓練數據中的運動后狀態數據送入所述深度神經網絡并進行前向傳播,以獲得所述深度神經網絡輸出的各個所述運動數據的價值函數值;根據所述深度神經網絡輸出的各個所述運動數據的價值函數值中的最大值,以及所述運動數據的反饋獎勵數值,計算目標價值函數值;根據所述訓練數據、所述運動數據的價值函數值以及所述目標價值函數值進行反向傳播,以更新所述深度神經網絡的參數;根據上述步驟迭代更新所述深度神經網絡的參數,直至所述深度神經網絡達到收斂。可選的,所述計算反饋獎勵數值包括:根據所述運動前狀態數據和所述運動后狀態數據,分別獲取所述運動操作前后所述機器人與障礙物的距離,并且分別獲取所述運動操作前后所述機器人與訓練目標信息的距離;根據所述運動操作前后所述機器人與障礙物的距離和所述運動操作前后所述機器人與訓練目標信息的距離,計算所述反饋獎勵數值。可選的,依據以下公式計算所述反饋獎勵數值r:其中,β、δ均為調整系數,TD1表征所述運動操作前所述機器人與訓練目標的距離,TD2表征所述運動操作后所述機器人與訓練目標的距離,OD1表征所述機器人在執行所述運動操作之前與障礙物的距離,OD2表征所述機器人在執行所述運動操作之后與障礙物的距離。可選的,在所述反向傳播的過程中采用minibatch梯度下降法。可選的,所述深度神經網絡的輸出的各個所述運動數據選自預設的運動集合。可選的,根據貝爾曼方程計算所述目標價值函數值。可選的,使用貪心探索算法產生所述運動數據。可選的,所述運動前狀態數據還包括以下至少一種:當前朝向信息、當前速度信息、當前加速度信息、當前位置信息、訓練目標信息;所述運動后狀態數據包括以下至少一種:運動后朝向信息、運動后速度信息、運動后加速度信息和運動后位置信息。可選的,所述導航尋路方法還包括:a:將所述尋路數據送入訓練后的所述深度神經網絡并進行前向傳播,以得到最優運動數據;b:使用所述最優運動數據指示所述機器人向導航目標做尋路運動。可選的,所述向導航目標做尋路運動之后,還包括:確定所述機器人是否到達導航目標,若是,則導航結束;若否,則重復執行上述步驟a和b做尋路運動,直至到達所述導航目標。可選的,所述訓練數據和所述尋路數據中均還包括地圖數據。本專利技術實施例還提供一種導航尋路機器人,包括:訓練數據生成單元,適于通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;深度神經網絡訓練單元,適于利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做尋路運動,所述尋路數據根據所述采集設備在尋路應用過程中采集的數據和所述導航目標得到。可選的,所述訓練數據生成單元包括:運動操作確定單元,適于確定所述訓練運動過程包含的至少一個運動操作,所述運動操作根據對應的運動數據的指示完成;狀態數據確定單元,適于確定每一運動操作的運動前狀態數據和運動后狀態數據,所述運動前狀態數據包括所述運動操作執行前的環境信息,所述運動后狀態數據包括所述運動操作執行后的環境信息;反饋獎勵數值計算單元,適于根據所述運動前狀態數據和所述運動后狀態數據計算反饋獎勵數值;訓練數據確定單元,適于將所述運動數據及其運動前狀態數據、運動后狀態數據以及反饋獎勵數值作為所述訓練數據。可選的,所述深度神經網絡訓練單元包括:第一前向傳播單元,適于將所述訓練數據中的所述運動前狀態數據送入所述深度神經網絡并進行前向傳播,以獲取所述訓練數據中的所述運動數據的價值函數值,所述運動數據的價值函數值用于評價所述機器人進行的運動操作在導航全程中對于到達訓練目標的價值;第二前向傳播單元,適于將所述訓練數據中的運動后狀態數據送入所述深度神經網絡并進行前向傳播,以獲得所述深度神經網絡輸出的各個所述運動數據的價值函數值;目標價值函數值計算單元,適于根據所述深度神經網絡輸出的各個所述運動數據的價值函數值中的最大值,以及所述運動數據的反饋獎勵數值,計算目標價值函數值;參數更新單元,適于根據所述訓練數據、所述運動數據的價值函數值以及所述目標價值函數值進行反向傳播,以更新所述深度神經網絡的參數;迭代控制單元,適于控制所述參數更新單元基于所述第一前向傳播單元、第二前向傳播單元、目標價值函數值計算單元更新所述神經網絡的參數,直至所述深度神經網絡達到收斂。可選的,所述反饋獎勵數值計算單元包括:距離獲取單元,適于根據所述運動前狀態數據和所述運動后狀態數據,分別獲取所述運動操作前后所述機器人與障礙物的距離,并且分別獲取所述運動操作前后所述機器人與訓練目標信息的距離;運算單元,適于根據所述運動操作前后所述機器人與障礙物的距離和所述運動操作前后所述機器人與訓練目標信息的距離,計算所述反饋獎勵數值。可選的,所述運算單元依據以下公式計算所述反饋獎勵數值r:其中,β、δ均為調整系數,TD1表征所述運動操作前所述機器人與訓練目標的距離,TD2表征所述運動操作后所述機器人與訓練目標的距離,OD1表征所述機器人在執行所述運動操作之前與障礙物的距離,OD2表征所述機器人在執行所述運動操作之后與障礙物的距離。可選的,所述參數更新單元,適于在所述反向傳播的過程中采用minibatch梯度下降法。可選的,所述深度神經網絡的輸出的各個所述運動數據選自預設的運動集合。可選的,所述目標價本文檔來自技高網...
    一種導航尋路方法、機器人及系統

    【技術保護點】
    一種導航尋路方法,其特征在于,包括:通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做尋路運動,所述尋路數據根據所述采集設備在尋路應用過程中采集的數據和所述導航目標得到。

    【技術特征摘要】
    1.一種導航尋路方法,其特征在于,包括:通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做尋路運動,所述尋路數據根據所述采集設備在尋路應用過程中采集的數據和所述導航目標得到。2.根據權利要求1所述的導航尋路方法,其特征在于,所述采集設備包括以下一種或多種:超聲采集設備、激光采集設備、雷達、紅外采集設備、超寬帶采集設備、攝像頭和3D體感攝影機。3.根據權利要求1所述的導航尋路方法,其特征在于,所述生成訓練數據的過程包括:確定所述訓練運動過程包含的至少一個運動操作,所述運動操作根據對應的運動數據的指示完成;確定每一運動操作的運動前狀態數據和運動后狀態數據,所述運動前狀態數據包括所述運動操作執行前的環境信息,所述運動后狀態數據包括所述運動操作執行后的環境信息;根據所述運動前狀態數據和所述運動后狀態數據計算反饋獎勵數值;將所述運動數據及其運動前狀態數據、運動后狀態數據以及反饋獎勵數值作為所述訓練數據。4.根據權利要求3所述的導航尋路方法,其特征在于,所述利用所述訓練數據訓練深度神經網絡包括:將所述訓練數據中的所述運動前狀態數據送入所述深度神經網絡并進行前向傳播,以獲取所述訓練數據中的所述運動數據的價值函數值,所述運動數據的價值函數值用于評價所述機器人進行的運動操作在導航全程中對于到達訓練目標的價值;將所述訓練數據中的運動后狀態數據送入所述深度神經網絡并進行前向傳播,以獲得所述深度神經網絡輸出的各個所述運動數據的價值函數值;根據所述深度神經網絡輸出的各個所述運動數據的價值函數值中的最大值,以及所述運動數據的反饋獎勵數值,計算目標價值函數值;根據所述訓練數據、所述運動數據的價值函數值以及所述目標價值函數值進行反向傳播,以更新所述深度神經網絡的參數;根據上述步驟迭代更新所述深度神經網絡的參數,直至所述深度神經網絡達到收斂。5.根據權利要求3或4所述的導航尋路方法,其特征在于,所述計算反饋獎勵數值包括:根據所述運動前狀態數據和所述運動后狀態數據,分別獲取所述運動操作前后所述機器人與障礙物的距離,并且分別獲取所述運動操作前后所述機器人與訓練目標信息的距離;根據所述運動操作前后所述機器人與障礙物的距離和所述運動操作前后所述機器人與訓練目標信息的距離,計算所述反饋獎勵數值。6.根據權利要求5所述的導航尋路方法,其特征在于,依據以下公式計算所述反饋獎勵數值r:其中,β、δ均為調整系數,TD1表征所述運動操作前所述機器人與訓練目標的距離,TD2表征所述運動操作后所述機器人與訓練目標的距離,OD1表征所述機器人在執行所述運動操作之前與障礙物的距離,OD2表征所述機器人在執行所述運動操作之后與障礙物的距離。7.根據權利要求4所述的導航尋路方法,其特征在于,在所述反向傳播的過程中采用minibatch梯度下降法。8.根據權利要求4所述的導航尋路方法,其特征在于,所述深度神經網絡的輸出的各個所述運動數據選自預設的運動集合。9.根據權利要求4所述的導航尋路方法,其特征在于,根據貝爾曼方程計算所述目標價值函數值。10.根據權利要求3所述的導航尋路方法,其特征在于,使用貪心探索算法產生所述運動數據。11.根據權利要求3所述的導航尋路方法,其特征在于,所述運動前狀態數據還包括以下至少一種:當前朝向信息、當前速度信息、當前加速度信息、當前位置信息、訓練目標信息;所述運動后狀態數據包括以下至少一種:運動后朝向信息、運動后速度信息、運動后加速度信息和運動后位置信息。12.根據權利要求1所述的導航尋路方法,其特征在于,還包括:a:將所述尋路數據送入訓練后的所述深度神經網絡并進行前向傳播,以得到最優運動數據;b:使用所述最優運動數據指示所述機器人向導航目標做尋路運動。13.根據權利要求12所述的導航尋路方法,其特征在于,所述向導航目標做尋路運動之后,還包括:確定所述機器人是否到達導航目標,若是,則導航結束;若否,則重復執行上述步驟a和b做尋路運動,直至到達所述導航目標。14.根據權利要求1所述的導航尋路方法,其特征在于,所述訓練數據和所述尋路數據中均還包括地圖數據。15.一種導航尋路機器人,其特征在于,包括:訓練數據生成單元,適于通過采集設備采集機器人在訓練運動過程中的環境信息,并根據所述訓練運動過程中的環境信息生成訓練數據;深度神經網絡訓練單元,適于利用所述訓練數據采用深度強化學習的方法訓練深度神經網絡,以使訓練后的所述深度神經網絡適于根據尋路數據進行決策分析,并指示所述機器人向導航目標做...

    【專利技術屬性】
    技術研發人員:陳曉禾任杰
    申請(專利權)人:無錫辰星機器人科技有限公司
    類型:發明
    國別省市:江蘇,32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产69精品久久久久孕妇| 无码色AV一二区在线播放| 国产AV无码专区亚洲AWWW| 亚洲欧洲无码AV电影在线观看 | 精品人妻无码区二区三区| 亚洲AV无码国产精品色| 亚洲午夜无码AV毛片久久| 亚洲中文无码永久免费| 亚洲va无码手机在线电影| 日韩精品无码人妻免费视频| 无码无遮挡又大又爽又黄的视频 | 国产成人午夜无码电影在线观看| 男人的天堂无码动漫AV| 久久久久成人精品无码| 无码专区国产精品视频| 久久久久久99av无码免费网站| 无码专区—VA亚洲V天堂| 亚洲色偷拍区另类无码专区| 亚洲AV无码国产一区二区三区| 无码国内精品久久人妻蜜桃| 韩国免费a级作爱片无码| 韩国无码AV片在线观看网站| 亚洲精品无码一区二区| 久久久久亚洲AV无码专区体验 | 亚洲中文字幕无码日韩| 特黄熟妇丰满人妻无码| 国产乱人伦中文无无码视频试看| 亚洲成无码人在线观看| 精品无码日韩一区二区三区不卡| 国产精品无码a∨精品| 伊人久久综合精品无码AV专区| 亚洲成av人片不卡无码久久 | 精品人妻少妇嫩草AV无码专区| 亚洲av无码专区在线观看亚| 在线观看成人无码中文av天堂 | 国产无码一区二区在线| 国产午夜激无码av毛片| 国产成人无码a区在线视频| 亚洲男人在线无码视频| 国产AⅤ无码专区亚洲AV| 无码中文字幕av免费放dvd|