System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文无码永久免,国产精品无码AV不卡,高清无码一区二区在线观看吞精
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>之江實驗室專利>正文

    一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質技術方案

    技術編號:40090078 閱讀:21 留言:0更新日期:2024-01-23 16:04
    本發明專利技術公開了一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質,所述方法包括以下步驟:(1)通過對物品指代OCID?Ref數據集進行預處理,構建指代意圖欠明確表達的數據集OCID?underRef;(2)構造凝視引導的視覺定位網絡GVG;(3)在真實人機交互場景下通過部署凝視引導的視覺定位網絡來實現交互式人機物品遞送;本發明專利技術減輕了數據集采集與標注的人力工作量;能夠在語言描述的物品指代意圖欠明確的情況下,結合人的凝視注意力檢測來克服不確定性,盡量避免了因物品指代意圖模糊而造成的人機多次問答交互。

    【技術實現步驟摘要】

    本專利技術涉及視聽協同的視覺定位,具體涉及一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質


    技術介紹

    1、確定人機交遞目標物品是驅動機器人實現目標導向物體抓取和交遞的前提,也是人機交互領域的一個長期挑戰。雖然深度學習的進步提供了強大的神經網絡模型來處理復雜的視覺和語言輸入,但是機器人自身感知不確定性和人類表達不確定性共存,是制約機器人理解人類指代意圖的瓶頸。首先,視覺輸入是復雜和含噪的,同時由于物品混雜擺放、相互遮擋,導致場景物體狀態通常存在部分可觀測性,這必然會導致視覺信息處理存在一定誤差。其次,盡管人類語言豐富多彩,但它們有時在指代目標方面是模棱兩可的。例如當場景中存在兩個同類物品實例時,這兩個不同對象可以完全匹配人的語言指令。因此單純依靠機器人自主視覺感知或接受人的語言指令,都容易出現指代目標物品表達不清的問題。

    2、通過語言-視覺對齊來彌補單通道感知的不足,是實現物品指代意圖理解的有效途徑。指代表達理解(referring?expression?comprehension,rec)和指代表達分割(referring?expression?segmentation,res)是根據給定的語言表達識別目標視覺實例的兩個新興研究任務。現有的大多數rec方法遵循多階段流水線,即從圖像中檢測出顯著區域,通過多模態交互選擇最匹配的區域。同時,現有的res方法通常是將一個lstm或gru模塊嵌入到一個單階段分割網絡中對引用進行分割。與res相比,rec在預測參考點的潛在位置方面具有優勢,這可以彌補res在確定正確實例方面的不足。另一方面,利用像素級標簽對res進行訓練,可以幫助rec在多模態訓練中獲得更好的語言-視覺對齊。共同學習rec和res以加強彼此是一種提升語言-視覺對齊性能的新思路(見gen?luo等,“multi-taskcollaborative?network?for?joint?referring?expression?comprehension?andsegmentation”,cvpr2020)。但是由于rec和res多任務共同學習中容易出現的檢測和分割預測沖突問題,目前視-聽融合的指稱表達理解方面尚缺乏有效手段來提升識別率。

    3、在人機交互式物品交遞場景中,人的凝視往往能夠有效鎖定指代目標物品。然而凝視點的檢測結果往往(見adriàrecasens等,“where?are?they?looking?”,nips2015)由于凝視估計誤差而呈現出一定的注意力區域分布預測。如何將凝視信息與指代表達理解和分割網絡相結合,從而充分發揮凝視對視覺定位所起的輔助所用,尚有待深入研究。


    技術實現思路

    1、專利技術目的:本專利技術的目的是提供一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質以解決由于凝視估計誤差而呈現出一定的注意力區域分布預測,充分利用凝視信息輔助引導視覺定位網絡,實現欠明確指代物品的定位與分割。

    2、技術方案:本專利技術所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,包括以下步驟:

    3、(1)通過對公開物品指代數據集ocid-ref進行預處理,構建含凝視標注的指代意圖欠明確表達的數據集ocid-underref;所述預處理包括:模擬物體凝視區域熱力圖;對目標物品指代文本進行模糊化處理得到欠明確物品指代文本;

    4、(2)構造凝視引導的視覺定位網絡gvg;以場景rgb圖像與欠明確物品指代文本為輸入,采用指代表達理解與指代表達分割兩個任務協同的網絡結構,引入凝視注意力特征與指代不明的文本特征相融合,實現凝視輔助下的指代物品同時檢測與分割;

    5、(3)在真實人機交互場景下通過部署凝視引導的視覺定位網絡來實現交互式人機物品遞送。

    6、進一步的,所述步驟(1)模擬物體凝視區域熱力圖是指在ocid-ref數據集上進行凝視建模,具體如下:

    7、通過對每個物品標注框bi,i=1,...,n;以bi為中心建立高斯分布的方法,為每一個物品生成一張模擬凝視區域熱力圖gi,i=1,...,n;因此所得的ocid-underref中每個物體都帶了模擬凝視區域熱力圖,其作用是,在模型訓練階段將此模擬凝視區域熱力圖gi作為凝視通道圖像的輸入。

    8、進一步的,所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達,具體如下:使用nltk工具包對進行模糊化;通過pos_tag函數對文本中每個單詞進行詞性標注,提取詞性為名詞單數形式的單詞作為gvg網絡的模糊化后的文本輸入;在模型訓練階段,則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

    9、進一步的,所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景rgb圖像i、凝視區域熱力圖g和一段欠明確的指代表達e。

    10、進一步的,所述步驟(2)凝視注意力特征與指代欠明確的文本特征相融合具體如下:

    11、將場景圖像i經過凝視估計網絡獲取凝視區域熱力圖g,通過resnet-18網絡提取凝視特征fg;對于場景rgb圖像i,采用cspdarknet-53視覺骨干網絡提取三個尺度的視覺特征fv1、fv2和fv3;對于欠明確的指代表達e輸入,首先通過詞嵌入將其映射為文本向量然后采用gru編碼器提取文本特征ft;在多模態特征融合的過程中,采取將凝視信息的空間特征抽象為高層語義特征的策略,先將文本特征ft和凝視特征fg進行拼接以補充文本所缺失的位置屬性,然后與高層視覺特征fv1相加;經過上采樣和下采樣的過程得到含有視-聽多模態特征的多尺度張量fm1、fm2和fm3;其中,fm1和fm2分別送入指代表達理解和指代表達分割分支,完成指代物品的定位框和分割掩碼預測,并在指代表達分割分支中引入了高分辨率特征圖fm3對fm2進行修正。

    12、進一步的,所述步驟(3)具體如下:在桌面存在同一物品多個實例的情況下,交互者以欠明確表達的物品指代語音輸入,即僅說出物品名稱,并注視特定物體實例;服務機器人視覺系統對人的凝視進行檢測,將訓練得到的凝視引導的視覺定位網絡直接遷移到實物場景中,該網絡通過輸入凝視區域熱力圖、場景圖像和欠明確表達的物品指代文本,輸出鎖定交互者注視的特定目標物品。

    13、進一步的,一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,真實場景下的凝視區域熱力圖由一個預訓練過的凝視估計網絡gaze?following進行預測。

    14、本專利技術所述的一種融合凝視的視聽協同物品指代表達理解與分割系統,包括以下模塊:

    15、數據預處理模塊:用于通過對公開物品指代數據集ocid-ref進行預處理,構建含凝視標注的指代意圖欠明確表達的數據集ocid-underref;所述預處理包括:模擬物體凝視區域熱力圖;對目標物品指代文本進行模糊化處理;

    16、凝視引導的視覺定位網絡gvg模塊:用于構造凝視引導的視覺定位網絡gvg;以本文檔來自技高網...

    【技術保護點】

    1.一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(1)模擬物體凝視區域熱力圖是指在OCID-Ref數據集上進行凝視建模;具體如下:

    3.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達,具體如下:使用NLTK工具包對進行模糊化;通過pos_tag函數對文本中每個單詞進行詞性標注,提取詞性為名詞單數形式的單詞作為GVG網絡的模糊化后的文本輸入;在模型訓練階段,則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

    4.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景RGB圖像I、凝視區域熱力圖G和一段欠明確的指代表達E。

    5.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(2)凝視注意力特征與指代欠明確的文本特征相融合具體如下:

    6.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(3)具體如下:在桌面存在同一物品多個實例的情況下,交互者以欠明確表達的物品指代語音輸入,即僅說出物品名稱,并注視特定物體實例;服務機器人視覺系統對人的凝視進行檢測,將訓練得到的凝視引導的視覺定位網絡直接遷移到實物場景中,該網絡通過輸入凝視區域熱力圖、場景圖像和欠明確表達的物品指代文本,輸出鎖定交互者注視的特定目標物品。

    7.根據權利要求6所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,真實場景下的凝視區域熱力圖由一個預訓練過的凝視估計網絡Gaze?Following進行預測。

    8.一種融合凝視的視聽協同物品指代表達理解與分割系統,包括以下模塊:

    9.一種設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-7任一項所述的一種融合凝視的視聽協同物品指代表達理解與分割方法中的步驟。

    10.一種存儲介質,存儲有計算機程序,其特征在于,所述計算機程序被設計為運行時實現根據權利要求1-7任一項所述的一種融合凝視的視聽協同物品指代表達理解與分割方法中的步驟。

    ...

    【技術特征摘要】

    1.一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(1)模擬物體凝視區域熱力圖是指在ocid-ref數據集上進行凝視建模;具體如下:

    3.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達,具體如下:使用nltk工具包對進行模糊化;通過pos_tag函數對文本中每個單詞進行詞性標注,提取詞性為名詞單數形式的單詞作為gvg網絡的模糊化后的文本輸入;在模型訓練階段,則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

    4.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景rgb圖像i、凝視區域熱力圖g和一段欠明確的指代表達e。

    5.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法,其特征在于,所述步驟(2)凝視注意力特征與指代欠明確的文本特征相融合具體如下:

    6...

    【專利技術屬性】
    技術研發人員:宋偉錢堃廖建峰張卓旸
    申請(專利權)人:之江實驗室
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲男人在线无码视频| 久久中文精品无码中文字幕| 无码毛片视频一区二区本码| 亚洲AV无码专区在线厂| 在线精品免费视频无码的| 日韩a级无码免费视频| 久久精品九九热无码免贵| 天堂一区人妻无码| 亚洲国产a∨无码中文777| 成人无码嫩草影院| 久久久久亚洲Av片无码v| 无码人妻丰满熟妇区毛片| 无码中文字幕日韩专区 | 亚洲国产精品无码久久久不卡| 国产色无码专区在线观看| 精品少妇人妻AV无码专区不卡| 少妇性饥渴无码A区免费 | 亚洲av无码无线在线观看| 特级无码a级毛片特黄| 人妻丰满熟妇av无码区不卡 | 久久久久久AV无码免费网站下载| 日韩欧精品无码视频无删节| 性色av无码不卡中文字幕| 无码精品A∨在线观看十八禁 | 人妻丰满熟妇无码区免费| 乱人伦人妻中文字幕无码久久网| 无码av免费一区二区三区试看| YY111111少妇无码理论片| 亚洲av无码无在线观看红杏| 久久亚洲日韩看片无码| 亚洲成A人片在线观看无码不卡| 白嫩少妇激情无码| 无码国产午夜福利片在线观看| 亚洲av无码乱码在线观看野外| 日韩人妻无码免费视频一区二区三区| 亚洲AV无码国产精品色| 日韩乱码人妻无码中文字幕| 亚洲精品无码久久久久去q| 人妻无码人妻有码中文字幕| 国产成人无码午夜福利软件| 亚洲精品一级无码中文字幕|