• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置制造方法及圖紙

    技術(shù)編號:36690875 閱讀:53 留言:0更新日期:2023-02-27 19:58
    本發(fā)明專利技術(shù)涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置,方法包括:獲取圖像數(shù)據(jù)和待識別目標的標簽信息;采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并進行截取得到多個感興趣區(qū)域;采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對感興趣區(qū)域進行圖像特征的提取,得到第一特征;采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對待識別目標的標簽信息進行文本特征的提取,得到第二特征;將第一特征和第二特征進行合并,得到合并矩陣;采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對合并矩陣中的特征進行交互融合,并將融合后的矩陣分離為2個分離矩陣;計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。本發(fā)明專利技術(shù)彌補了在開放詞庫的檢測能力的缺陷。陷。陷。

    【技術(shù)實現(xiàn)步驟摘要】
    一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置


    [0001]本專利技術(shù)涉及目標檢測
    ,特別是涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置。

    技術(shù)介紹

    [0002]一般的目標檢測方法有2個限制:1、僅利用圖像這一種模態(tài)信息,無法有效利用文本信息增加圖像的語義信息;2、無法隨意擴展需要檢測的類別,如模型在訓(xùn)練時的類別只有10類,那么在推理時,檢測到的目標也只會包含于10類。

    技術(shù)實現(xiàn)思路

    [0003]本專利技術(shù)所要解決的技術(shù)問題是提供一種利用文本信息的跨模態(tài)圖像目標檢測方法和裝置,彌補了在開放詞庫的檢測能力的缺陷。
    [0004]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種利用文本信息的跨模態(tài)圖像目標檢測方法,包括以下步驟:
    [0005]獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
    [0006]采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;
    [0007]采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;
    [0008]采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;
    [0009]將所述第一特征和第二特征進行合并,得到合并矩陣;
    [0010]采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;
    [0011]計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。
    [0012]所述候選框神經(jīng)網(wǎng)絡(luò)模塊為DETR目標檢測網(wǎng)絡(luò)。
    [0013]所述圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊為VIT預(yù)訓(xùn)練模型。
    [0014]所述文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊為BERT網(wǎng)絡(luò)。
    [0015]所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。
    [0016]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種利用文本信息的跨模態(tài)圖像目標檢測裝置,包括:
    [0017]獲取模塊,用于獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
    [0018]候選框神經(jīng)網(wǎng)絡(luò)模塊,用于檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;
    [0019]圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊,用于對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;
    [0020]文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊,用于對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;
    [0021]合并模塊,用于將所述第一特征和第二特征進行合并,得到合并矩陣;
    [0022]跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊,用于對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;
    [0023]分類模塊,用于計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。
    [0024]所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。
    [0025]所述分類模塊包括:計算單元,用于將兩個2個分離矩陣做矩陣乘法,并將得到的結(jié)果做Soft
    ?
    Max歸一化操作,得到相似度矩陣;比較單元,用于將相似度矩陣中的標簽的相似度與閾值進行比較,并去除小于閾值的標簽,將保留的標簽作為目標檢測的類別。
    [0026]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的利用文本信息的跨模態(tài)圖像目標檢測方法的步驟。
    [0027]本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的利用文本信息的跨模態(tài)圖像目標檢測方法的步驟。
    [0028]有益效果
    [0029]由于采用了上述的技術(shù)方案,本專利技術(shù)與現(xiàn)有技術(shù)相比,具有以下的優(yōu)點和積極效果:本專利技術(shù)同時利用候選框神經(jīng)網(wǎng)絡(luò)模塊、圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊、文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊和跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊的共同作用,增加圖像特征的語義信息,并可以在不增加類別訓(xùn)練的情況下,有效做到對任意類別的檢測能力,彌補了在開放詞庫的檢測能力的缺陷。
    附圖說明
    [0030]圖1是本專利技術(shù)第一實施方式的流程圖;
    [0031]圖2是本專利技術(shù)第二實施方式的結(jié)構(gòu)方框圖。
    具體實施方式
    [0032]下面結(jié)合具體實施例,進一步闡述本專利技術(shù)。應(yīng)理解,這些實施例僅用于說明本專利技術(shù)而不用于限制本專利技術(shù)的范圍。此外應(yīng)理解,在閱讀了本專利技術(shù)講授的內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對本專利技術(shù)作各種改動或修改,這些等價形式同樣落于本申請所附權(quán)利要求書所限定的范圍。
    [0033]本專利技術(shù)的第一實施方式涉及一種利用文本信息的跨模態(tài)圖像目標檢測方法,如圖1所示,包括以下步驟:
    [0034]步驟1,獲取圖像數(shù)據(jù)和待識別目標的標簽信息;
    [0035]步驟2,采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域,。
    [0036]本步驟中,候選框神經(jīng)網(wǎng)絡(luò)模塊使用DETR目標檢測網(wǎng)絡(luò),其能夠?qū)D像數(shù)據(jù)中的M個目標進行定位,并輸出M個坐標信息,每個坐標信息為矩形框包含目標的x軸左上角坐標、y軸左上角坐標、x軸右下角坐標,y軸右下角坐標。通過M個坐標信息,截取原始輸入圖片中的目標區(qū)域,即可得到目標的感興趣區(qū)域。
    [0037]步驟3,采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征。
    [0038]本步驟中,圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊使用VIT預(yù)訓(xùn)練模型,該VIT預(yù)訓(xùn)練模型可以抽取ROI的特征,從而能夠獲取到M個第一特征,M個第一特征構(gòu)成第一特征向量,第一特征向量的長度為768dim,命名為A。
    [0039]步驟4,采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征。
    [0040]本步驟中,文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊采用BERT網(wǎng)絡(luò),由于文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊用來抽取文本特征,因此待識別目標的標簽信息作為其輸入時,需要將待識別目標的標簽信息合并成一個句子,如待識別目標的標簽信息類別有:鳥、鴨子、汽車,將這些類別當(dāng)做句子分詞后的結(jié)果輸入至文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊,通過該文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊能夠抽取輸入文本的特征,N個第二特征,N個第二特征本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】

    【技術(shù)特征摘要】
    1.一種利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,包括以下步驟:獲取圖像數(shù)據(jù)和待識別目標的標簽信息;采用候選框神經(jīng)網(wǎng)絡(luò)模塊檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,得到多個感興趣區(qū)域;采用圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述感興趣區(qū)域進行圖像特征的提取,得到第一特征;采用文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊對所述待識別目標的標簽信息進行文本特征的提取,得到第二特征;將所述第一特征和第二特征進行合并,得到合并矩陣;采用跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊對所述合并矩陣中的第一特征和第二特征進行交互融合,得到融合矩陣,并將所述融合矩陣分離為2個分離矩陣;計算2個分離矩陣的相似度矩陣,并根據(jù)相似度矩陣確定目標檢測的類別。2.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述候選框神經(jīng)網(wǎng)絡(luò)模塊為DETR目標檢測網(wǎng)絡(luò)。3.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述圖像特征抽取神經(jīng)網(wǎng)絡(luò)模塊為VIT預(yù)訓(xùn)練模型。4.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述文本特征抽取神經(jīng)網(wǎng)絡(luò)模塊為BERT網(wǎng)絡(luò)。5.根據(jù)權(quán)利要求1所述的利用文本信息的跨模態(tài)圖像目標檢測方法,其特征在于,所述跨模態(tài)特征融合神經(jīng)網(wǎng)絡(luò)模塊包括依次設(shè)置的3層自注意力網(wǎng)絡(luò)層和2層全連接層,所述3層自注意力網(wǎng)絡(luò)層用于對所述合并矩陣中的第一特征和第二特征進行交互融合,輸出融合矩陣;所述2層全連接層用于將所述融合矩陣分離為2個分離矩陣。6.一種利用文本信息的跨模態(tài)圖像目標檢測裝置,其特征在于,包括:獲取模塊,用于獲取圖像數(shù)據(jù)和待識別目標的標簽信息;候選框神經(jīng)網(wǎng)絡(luò)模塊,用于檢測圖像數(shù)據(jù)中的所有目標,并確定各個目標的位置,并基于所述位置將各個目標從圖像數(shù)據(jù)中截取出來,...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:孔歐
    申請(專利權(quán))人:上海蜜度信息技術(shù)有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久午夜无码鲁丝片午夜精品| 久久无码专区国产精品发布| 国产精品无码专区AV在线播放| 国产品无码一区二区三区在线| 超清无码无卡中文字幕| 亚洲精品无码不卡| 国产麻豆天美果冻无码视频| 92午夜少妇极品福利无码电影| 久久久久无码国产精品不卡| 最新中文字幕av无码专区| 波多野结衣AV无码久久一区| 精品无码国产AV一区二区三区| 无码人妻精品一区二区三区在线 | 国产福利电影一区二区三区久久老子无码午夜伦不| 无码AV一区二区三区无码| 精品欧洲AV无码一区二区男男| 国产精品一区二区久久精品无码| 无码国产精品一区二区免费I6 | 精品亚洲成在人线AV无码| 精品人妻无码专区中文字幕| 亚洲AV无码一区二区乱子仑| 日日麻批免费40分钟无码| 日韩精品无码免费专区网站 | 亚洲AV无码成人精品区蜜桃| JLZZJLZZ亚洲乱熟无码| 四虎成人精品无码永久在线| 亚洲Av永久无码精品一区二区| 69堂人成无码免费视频果冻传媒| 国产成人无码18禁午夜福利p| 国产成人无码a区在线视频| 无码精品A∨在线观看无广告| 亚洲精品久久久久无码AV片软件| 精品无码一区在线观看| 无码人妻精品一区二区三区99性| 国产爆乳无码一区二区麻豆| 国产精品无码一区二区在线观一| 亚洲一级Av无码毛片久久精品| 五月婷婷无码观看| 国精品无码A区一区二区| 国产成人无码一区二区三区| 亚洲国产a∨无码中文777|