當(dāng)前位置: 首頁 > 專利查詢>上海蜜度信息技術(shù)有限公司專利>正文

一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置制造方法及圖紙

技術(shù)編號：36690875 閱讀：53 留言：0更新日期：2023-02-27 19:58

本發(fā)明專利技術(shù)涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置，方法包括：獲取圖像數(shù)據(jù)和待識別目標的標簽信息；采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標，并進行截取得到多個感興趣區(qū)域；采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對感興趣區(qū)域進行圖像特征的提取，得到第一特征；采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對待識別目標的標簽信息進行文本特征的提取，得到第二特征；將第一特征和第二特征進行合并，得到合并矩陣；采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對合并矩陣中的特征進行交互融合，并將融合后的矩陣分離為2個分離矩陣；計算2個分離矩陣的相似度矩陣，并根據(jù)相似度矩陣確定目標檢測的類別。本發(fā)明專利技術(shù)彌補了在開放詞庫的檢測能力的缺陷。陷。陷。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】
一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置

[0001]本專利技術(shù)涉及目標檢測
，特別是涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置。

技術(shù)介紹

[0002]一般的目標檢測方法有2個限制：1、僅利用圖像這一種模態(tài)信息，無法有效利用文本信息增加圖像的語義信息；2、無法隨意擴展需要檢測的類別，如模型在訓(xùn)練時的類別只有10類，那么在推理時，檢測到的目標也只會包含于10類。

技術(shù)實現(xiàn)思路

[0003]本專利技術(shù)所要解決的技術(shù)問題是提供一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置，彌補了在開放詞庫的檢測能力的缺陷。
[0004]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是：提供一種利用文本信息的跨模態(tài)圖像目標檢測方法，包括以下步驟：
[0005]獲取圖像數(shù)據(jù)和待識別目標的標簽信息；
[0006]采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標，并確定各個目標的位置，并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來，得到多個感興趣區(qū)域；
[0007]采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取，得到第一特征；
[0008]采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取，得到第二特征；
[0009]將所述第一特征和第二特征進行合并，得到合并矩陣；
[0010]采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合，得到融合矩陣，并將所述融合矩陣分離為2個分離矩陣；
[0011...

【技術(shù)保護點】

【技術(shù)特征摘要】
1.一種利用文本信息的跨模態(tài)圖像目標檢測方法，其特征在于，包括以下步驟：獲取圖像數(shù)據(jù)和待識別目標的標簽信息；采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標，并確定各個目標的位置，并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來，得到多個感興趣區(qū)域；采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取，得到第一特征；采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取，得到第二特征；將所述第一特征和第二特征進行合并，得到合并矩陣；采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合，得到融合矩陣，并將所述融合矩陣分離為2個分離矩陣；計算2個分離矩陣的相似度矩陣，并根據(jù)相似度矩陣確定目標檢測的類別。2.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法，其特征在于，所述候選框神經(jīng)網(wǎng)絡(luò)模塊為DETR目標檢測網(wǎng)絡(luò)。3.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法，其特征在于，所述圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊為VIT預(yù)訓(xùn)練模型。4.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法，其特征在于，所述文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊為BERT網(wǎng)絡(luò)。5.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法，其特征在于，所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層，所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合，輸出融合矩陣；所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。6.一種利用文本信息的跨模態(tài)圖像目標檢測裝置，其特征在于，包括：獲取模塊，用于獲取圖像數(shù)據(jù)和待識別目標的標簽信息；候選框神經(jīng)網(wǎng)絡(luò)模塊，用于檢測圖像數(shù)據(jù)中的所有目標，并確定各個目標的位置，并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來，...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：孔歐，
申請(專利權(quán))人：上海蜜度信息技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)