基于多標簽分類的開集目標檢測方法、裝置、設備和介質制造方法及圖紙

技術編號：43804542 閱讀：20 留言：0更新日期：2024-12-27 13:22

本發明專利技術提供一種基于多標簽分類的開集目標檢測方法、裝置、設備和介質，其中方法包括：在開集目標檢測模型的融合層的任意一層中嵌入多標簽分類層；將多標簽分類層和開集目標檢測模型的前K層轉換為第一推理層，將開集目標檢測模型的后N?K層轉換為第二推理層；將目標圖像和預設的M個目標類別文本輸入至第一推理層，得到圖像特征和M個文本特征，以及M個目標類別文本的置信度；基于M個目標類別文本的置信度，對M個文本特征進行過濾，得到過濾后的m個文本特征；在m值不為零的情況下，將過濾后的m個文本特征和圖像特征輸入至第二推理層，得到目標圖像的分類結果。本發明專利技術推理加速效果好，無需額外訓練成本，不影響定位準確率，通用性強。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及目標檢測，尤其涉及一種基于多標簽分類的開集目標檢測方法、裝置、設備和介質。

技術介紹

1、隨著城市治理、安防監控、智慧交通等場景日趨復雜化，如何在復雜場景下提高開集目標檢測的推理速度，是開集目標檢測模型亟待解決的關鍵問題。在現有技術中，采用模型蒸餾的方案進行推理加速，定位準確性下降，需要額外的訓練成本；采用模型量化的方案進行推理加速，通用性較差；采用模型枝剪的方案進行推理加速，需要特定的設備。

技術實現思路

1、本專利技術提供一種基于多標簽分類的開集目標檢測方法、裝置、設備和介質，用以解決現有技術中采用模型蒸餾的方案進行推理加速，定位準確性下降，需要額外的訓練成本；采用模型量化的方案進行推理加速，通用性較差；采用模型枝剪的方案進行推理加速，需要特定的設備的缺陷。

2、第一方面，本專利技術提供一種基于多標簽分類的開集目標檢測方法，包括：

3、在開集目標檢測模型的融合層的任意一層中嵌入多標簽分類層，所述開集目標檢測模型包括n層，n為大于等于1的自然數；

4、將所述多標簽分類層和所述開集目標檢測模型中位于所述多標簽分類層之前的前k層轉換為第一推理層，將所述開集目標檢測模型中位于所述多標簽分類層之后的n-k層轉換為第二推理層，k為大于等于1的自然數；

5、將目標圖像和預設的m個目標類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標圖像對應的圖像特征和m個文本特征，以及所述m個目標類別文本的置信度，?m為大于等于1的自然數；

6、基于所述m個目標類別文本的置信度，對所述m個文本特征進行過濾，得到過濾后的m個文本特征，m為非負整數；

7、在m值不為零的情況下，將所述過濾后的m個文本特征和所述圖像特征輸入至所述第二推理層，得到所述第二推理層輸出的所述目標圖像的分類結果；

8、其中，所述開集目標檢測模型是基于樣本圖像和多個樣本類別文本，以及所述樣本圖像的分類標簽進行訓練得到的。

9、在一些實施例中，所述將目標圖像和預設的m個目標類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標圖像對應的圖像特征和m個文本特征，以及所述m個目標類別文本的置信度，包括：

10、將所述目標圖像和預設的m個目標類別文本輸入至所述前k層，得到所述前k層輸出的所述目標圖像對應的區域級的圖像特征和m個文本特征；

11、基于所述多標簽分類層，計算每一文本特征與對應區域的圖像特征的相似度，基于所述每一文本特征與對應區域的圖像特征的相似度，計算所述每一文本特征的類別置信度。

12、在一些實施例中，所述基于所述m個目標類別文本的置信度，對所述m個文本特征進行過濾，得到過濾后的m個文本特征，包括：

13、基于所述m個目標類別文本的置信度和預設閾值，對所述m個文本特征進行過濾，得到所述過濾后的m個文本特征。

14、在一些實施例中，所述得到過濾后的m個文本特征之后，還包括：

15、在m值為零的情況下，所述開集目標檢測模型直接輸出所述目標圖像的分類結果為空。

16、在一些實施例中，所述開集目標檢測模型的訓練過程包括：

17、獲取樣本圖像和多個樣本類別文本，確定樣本圖像的分類標簽；

18、以所述樣本圖像和多個樣本類別文本為訓練樣本，以所述樣本圖像的分類標簽為樣本標簽訓練初始開集目標檢測模型；

19、對所述初始開集目標檢測模型的參數進行迭代優化，得到所述開集目標檢測模型。

20、在一些實施例中，所述初始開集目標檢測模型包括第一初始推理層和第二初始推理層，所述第一初始推理層包括初始多標簽分類層和初始前k層，所述初始前k層是指所述初始開集目標檢測模型中位于所述初始多標簽分類層之前的k層，所述初始開集目標檢測模型包括n層；

21、對應地，所述訓練初始開集目標檢測模型，包括：

22、將所述樣本圖像和多個樣本類別文本輸入至所述初始前k層，得到所述初始前k層輸出的所述樣本圖像對應的區域級的樣本圖像特征和多個樣本文本特征；

23、基于所述初始多標簽分類層，計算每一樣本文本特征與對應區域的樣本圖像特征的相似度；

24、基于所述每一文本特征與對應區域的圖像特征的相似度和所述樣本圖像的分類標簽，計算損失函數值；

25、基于所述損失函數值，訓練所述初始多目標分類層。

26、第二方面，本專利技術還提供一種基于多標簽分類的開集目標檢測裝置，包括：

27、嵌入單元，用于在開集目標檢測模型的融合層的任意一層中嵌入多標簽分類層，所述開集目標檢測模型包括n層，n為大于等于1的自然數；

28、轉換單元，用于將所述多標簽分類層和所述開集目標檢測模型中位于所述多標簽分類層之前的前k層轉換為第一推理層，將所述開集目標檢測模型中位于所述多標簽分類層之后的n-k層轉換為第二推理層，k為大于等于1的自然數；

29、推理單元，用于將目標圖像和預設的m個目標類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標圖像對應的圖像特征和m個文本特征，以及所述m個目標類別文本的置信度，?m為大于等于1的自然數；

30、過濾單元，用于基于所述m個目標類別文本的置信度，對所述m個文本特征進行過濾，得到過濾后的m個文本特征，m為非負整數；

31、分類單元，用于在m值不為零的情況下，將所述過濾后的m個文本特征和所述圖像特征輸入至所述第二推理層，得到所述第二推理層輸出的所述目標圖像的分類結果；

32、其中，所述開集目標檢測模型是基于樣本圖像和多個樣本類別文本，以及所述樣本圖像的分類標簽進行訓練得到的。

33、第三方面，本專利技術還提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述程序時實現如上述任一種所述基于多標簽分類的開集目標檢測方法。

34、第四方面，本專利技術還提供一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現如上述任一種所述基于多標簽分類的開集目標檢測方法。

35、第五方面，本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現如上述任一種所述基于多標簽分類的開集目標檢測方法。

36、本專利技術提供的基于多標簽分類的開集目標檢測方法、裝置、設備和介質，通過在開集目標檢測模型的融合層的任意一層中嵌入多標簽分類層，?將多標簽分類層和開集目標檢測模型中的前k層轉換為第一推理層，將開集目標檢測模型中的后n-k層轉換為第二推理層，將目標圖像和預設的m個目標類別文本輸入至第一推理層，得到目標圖像對應的圖像特征和m個文本特征，以及m個目標類別文本的置信度，基于m個目標類別文本的置信度，對m個文本特征進行過濾，得到過濾后的m個文本特征，在m值不為零的情況下，將過濾后的m個文本特征和圖像特征輸入至第二推理層，得本文檔來自技高網...

【技術保護點】

1.一種基于多標簽分類的開集目標檢測方法，其特征在于，包括：

2.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述將目標圖像和預設的M個目標類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標圖像對應的圖像特征和M個文本特征，以及所述M個目標類別文本的置信度，包括：

3.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述基于所述M個目標類別文本的置信度，對所述M個文本特征進行過濾，得到過濾后的m個文本特征，包括：

4.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述得到過濾后的m個文本特征之后，還包括：

5.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述開集目標檢測模型的訓練過程包括：

6.根據權利要求5所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述初始開集目標檢測模型包括第一初始推理層和第二初始推理層，所述第一初始推理層包括初始多標簽分類層和初始前K層，所述初始前K層是指所述初始開集目標檢測模型中位于所述初始多標

7.一種基于多標簽分類的開集目標檢測裝置，其特征在于，包括：

8.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1至6任一項所述基于多標簽分類的開集目標檢測方法。

9.一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于多標簽分類的開集目標檢測方法。

10.一種計算機程序產品，包括計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于多標簽分類的開集目標檢測方法。

...

【技術特征摘要】

1.一種基于多標簽分類的開集目標檢測方法，其特征在于，包括：

2.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述將目標圖像和預設的m個目標類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標圖像對應的圖像特征和m個文本特征，以及所述m個目標類別文本的置信度，包括：

3.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述基于所述m個目標類別文本的置信度，對所述m個文本特征進行過濾，得到過濾后的m個文本特征，包括：

4.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述得到過濾后的m個文本特征之后，還包括：

5.根據權利要求1所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述開集目標檢測模型的訓練過程包括：

6.根據權利要求5所述的基于多標簽分類的開集目標檢測方法，其特征在于，所述初始開...

【專利技術屬性】
技術研發人員：陳其博，余立，叢鵬宇，嚴昱超，金煒眾，厲舒暢，劉夢迪，葛建躍，郭軒江，
申請(專利權)人：中國移動通信集團浙江有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術