本發(fā)明專利技術(shù)涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置,方法包括:獲取圖像數(shù)據(jù)和待識別目標的標簽信息;采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并進行截取得到多個感興趣區(qū)域;采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對感興趣區(qū)域進行圖像特征的提取,得到第一特征;采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對待識別目標的標簽信息進行文本特征的提取,得到第二特征;將第一特征和第二特征進行合并,得到合并矩陣;采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對合并矩陣中的特征進行交互融合,并將融合后的矩陣分離為2個分離矩陣;計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。本發(fā)明專利技術(shù)彌補了在開放詞庫的檢測能力的缺陷。陷。陷。
【技術(shù)實現(xiàn)步驟摘要】
一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置
[0001]本專利技術(shù)涉及目標檢測
,特別是涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置。
技術(shù)介紹
[0002]一般的目標檢測方法有2個限制:1、僅利用圖像這一種模態(tài)信息,無法有效利用文本信息增加圖像的語義信息;2、無法隨意擴展需要檢測的類別,如模型在訓(xùn)練時的類別只有10類,那么在推理時,檢測到的目標也只會包含于10類。
技術(shù)實現(xiàn)思路
[0003]本專利技術(shù)所要解決的技術(shù)問題是提供一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置,彌補了在開放詞庫的檢測能力的缺陷。
[0004]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種利用文本信息的跨模態(tài)圖像目標檢測方法,包括以下步驟:
[0005]獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
[0006]采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;
[0007]采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;
[0008]采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;
[0009]將所述第一特征和第二特征進行合并,得到合并矩陣;
[0010]采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;
[0011]計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。
[0012]所述候選框神經(jīng)網(wǎng)絡(luò)模塊為DETR目標檢測網(wǎng)絡(luò)。
[0013]所述圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊為VIT預(yù)訓(xùn)練模型。
[0014]所述文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊為BERT網(wǎng)絡(luò)。
[0015]所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。
[0016]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種利用文本信息的跨模態(tài)圖像目標檢測裝置,包括:
[0017]獲取模塊,用于獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
[0018]候選框神經(jīng)網(wǎng)絡(luò)模塊,用于檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;
[0019]圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊,用于對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;
[0020]文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊,用于對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;
[0021]合并模塊,用于將所述第一特征和第二特征進行合并,得到合并矩陣;
[0022]跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊,用于對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;
[0023]分類模塊,用于計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。
[0024]所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。
[0025]所述分類模塊包括:計算單元,用于將兩個2個分離矩陣做矩陣乘法,并將得到的結(jié)果做Soft
?
Max歸一化操作,得到相似度矩陣;比較單元,用于將相似度矩陣中的標簽的相似度與閾值進行比較,并去除小于閾值的標簽,將保留的標簽作為目標檢測的類別。
[0026]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的利用文本信息的跨模態(tài)圖像目標檢測方法的步驟。
[0027]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的利用文本信息的跨模態(tài)圖像目標檢測方法的步驟。
[0028]有益效果
[0029]由于采用了上述的技術(shù)方案,本專利技術(shù)與現(xiàn)有技術(shù)相比,具有以下的優(yōu)點和積極效果:本專利技術(shù)同時利用候選框神經(jīng)網(wǎng)絡(luò)模塊、圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊、文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊和跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊的共同作用,增加圖像特征的語義信息,并可以在不增加類別訓(xùn)練的情況下,有效做到對任意類別的檢測能力,彌補了在開放詞庫的檢測能力的缺陷。
附圖說明
[0030]圖1是本專利技術(shù)第一實施方式的流程圖;
[0031]圖2是本專利技術(shù)第二實施方式的結(jié)構(gòu)方框圖。
具體實施方式
[0032]下面結(jié)合具體實施例,進一步闡述本專利技術(shù)。應(yīng)理解,這些實施例僅用于說明本專利技術(shù)而不用于限制本專利技術(shù)的范圍。此外應(yīng)理解,在閱讀了本專利技術(shù)講授的內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對本專利技術(shù)作各種改動或修改,這些等價形式同樣落于本申請所附權(quán)利要求書所限定的范圍。
[0033]本專利技術(shù)的第一實施方式涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法,如圖1所示,包括以下步驟:
[0034]步驟1,獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
[0035]步驟2,采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域,。
[0036]本步驟中,候選框神經(jīng)網(wǎng)絡(luò)模塊使用DETR目標檢測網(wǎng)絡(luò),其能夠?qū)D像數(shù)據(jù)中的M個目標進行定位,并輸出M個坐標信息,每個坐標信息為矩形框包含目標的x軸左上角坐標、y軸左上角坐標、x軸右下角坐標,y軸右下角坐標。通過M個坐標信息,截取原始輸入圖片中的目標區(qū)域,即可得到目標的感興趣區(qū)域。
[0037]步驟3,采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征。
[0038]本步驟中,圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊使用VIT預(yù)訓(xùn)練模型,該VIT預(yù)訓(xùn)練模型可以抽取ROI的特征,從而能夠獲取到M個第一特征,M個第一特征構(gòu)成第一特征向量,第一特征向量的長度為768dim,命名為A。
[0039]步驟4,采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征。
[0040]本步驟中,文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊采用BERT網(wǎng)絡(luò),由于文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊用來抽取文本特征,因此待識別目標的標簽信息作為其輸入時,需要將待識別目標的標簽信息合并成一個句子,如待識別目標的標簽信息類別有:鳥、鴨子、汽車,將這些類別當(dāng)做句子分詞后的結(jié)果輸入至文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊,通過該文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊能夠抽取輸入文本的特征,N個第二特征,N個第二特征本文檔來自技高網(wǎng)...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.一種利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,包括以下步驟:獲取圖像數(shù)據(jù)和待識別目標的標簽信息;采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;將所述第一特征和第二特征進行合并,得到合并矩陣;采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。2.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述候選框神經(jīng)網(wǎng)絡(luò)模塊為DETR目標檢測網(wǎng)絡(luò)。3.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊為VIT預(yù)訓(xùn)練模型。4.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊為BERT網(wǎng)絡(luò)。5.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。6.一種利用文本信息的跨模態(tài)圖像目標檢測裝置,其特征在于,包括:獲取模塊,用于獲取圖像數(shù)據(jù)和待識別目標的標簽信息;候選框神經(jīng)網(wǎng)絡(luò)模塊,用于檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孔歐,
申請(專利權(quán))人:上海蜜度信息技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。