本發明專利技術公開了圖像處理技術領域的一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,包括以下步驟:S1、采集輸入圖片,并對圖像進行數據預處理;S2、將預處理后的圖像導入分類模型,輸出三個不同卷積層的特征圖;S3、對各特征圖進行分別的分類預測,取可信度最大分類器,輸出最終預測分類結果,本發明專利技術具有圖像分類準確率高、提取質量高等優點。提取質量高等優點。提取質量高等優點。
【技術實現步驟摘要】
一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法
[0001]本專利技術涉及圖像處理
,特別是涉及一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法。
技術介紹
[0002]Resnet作為深度學習經典骨干框架通過提出殘差模塊(Residual bloack),解決了深層次網絡難以訓練,存在梯度消失和梯度爆炸問題,使神經網絡提取特征的能力大大增強。Resnet在提升神經網絡訓練速度方面取得顯著效果,但具體應用于計算機視覺的分類、定位、檢測和分割有待提升。
[0003]但本申請專利技術人在實現本申請實施例中專利技術技術方案的過程中,發現上述技術至少存在如下技術問題:
[0004]在圖像分類領域,由于分類目標在每張圖像尺度大小差異較大,目標大小不一致增加了圖片的分類難度,導致最終分類效果差強人意。
[0005]例如,利用數據集cifar
?
10進行分類任務,該數據集包括60000張32x32的彩色圖像,其中訓練集50000張,測試集10000張。cifar
?
10一共標注為10類,每一類圖片6000張。這10類分別是airplane(飛機),automobile(汽車),bird(鳥),cat(貓),deer(鹿),dog(狗),frog(青蛙),horse(馬),ship(船)和truck(卡車),其中沒有任何的重疊情況,即airplane只包括飛機,automobile只包括小型汽車,也不會在同一張照片中出現兩類事物。其中CIFAR
?
10含有的是現實世界中真實的物體,不僅噪聲很大,分辨率低,而且物體的比例、特征都不盡相同,這為識別帶來很大困難。
[0006]基于此,本專利技術設計了一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,以解決上述問題。
技術實現思路
[0007]為了解決目前
技術介紹
提及的技術問題,本專利技術的目的是提供一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法。
[0008]為了實現上述目的,本專利技術采用如下技術方案:
[0009]一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,包括以下步驟:
[0010]S1、采集輸入圖片,并對圖像進行數據預處理;
[0011]S2、將預處理后的圖像導入分類模型,輸出三個不同卷積層的特征圖;
[0012]S3、對各特征圖進行分別的分類預測,取可信度最大分類器,輸出最終預測分類結果。
[0013]優選的,所述數據預處理包括:
[0014]將輸入圖像格式(c,h,w)處理為(c,7h,7w);
[0015]其中,c為圖片通道數,h為圖片高度,w為圖片高度。
[0016]優選的,所述分類模型的處理包括:
[0017]對預處理圖像進行focus模塊處理,提取不同特征;
[0018]經CBAM注意力機制模塊處理得到有意義的特征;
[0019]提取圖像特征,并在bottom
?
top各層輸出特征層;
[0020]對特征層卷積后降通道操作,獲取統一通道數的中間特征層;
[0021]對應bottom
?
top各層融合輸出特征層。
[0022]優選的,所述focus模塊處理包括:
[0023]將輸入圖片進行切片操作后連接成新圖片,其中,新圖片的通道數為輸入圖片的一半,新圖片大小為輸入圖片的4倍;
[0024]卷積輸出特征圖,并將平面上的信息切換到通道維度,經卷積的方式提取不同特征。
[0025]優選的,所述CBAM注意力機制模塊處理包括:
[0026]空間注意力注意特征圖中的重點關注的目標區域,獲取關注目標的細節信息,并抑制其他無用信息。
[0027]優選的,所述融合輸出特征層包括:
[0028]將上層特征圖中低分辨率高級抽象語義信息通過add融合到低層高分辨率低語義特征。
[0029]優選的,所述分類預測包括:
[0030]將三個不同特征特征層作為輸出結果進行全連接層fc操作;
[0031]對各特征層全連接后分類處理,并為每個類別輸出一個概率值;
[0032]取概率值最大的分類結果作為最終的輸出預測值。
[0033]本專利技術實施例中提供的一個或多個技術方案,至少具有如下技術效果或優點:
[0034]1、本專利技術通過結合注意力模塊CBAM和特征金字塔FPN結構,提升了Resnet50模型的特征提取效果;
[0035]2、本專利技術通過基于FPN不同層特征層三分類器的優化算法,充分利用融合后不同層的特征信息,提升了分類的準確率;
[0036]綜上所述,本專利技術具有圖像分類準確率高、提取質量高等優點。
附圖說明
[0037]以下結合附圖和具體實施方式來進一步詳細說明本專利技術:
[0038]圖1為本專利技術圖像分類模型的處理流程圖;
[0039]圖2為本專利技術P4、P5和P6圖。
具體實施方式
[0040]以下由特定的具體實施例說明本專利技術的實施方式,熟悉此技術的人士可由本說明書所揭露的內容輕易地了解本專利技術的其他優點及功效。
[0041]實施例一
[0042]本專利技術提供一種技術方案:一種基于Resnet50結合注意力機制和特征金字塔的圖
像分類方法,包括以下步驟:
[0043]S1、采集輸入圖片,并對圖像進行數據預處理;
[0044]S2、將預處理后的圖像導入分類模型,輸出三個不同卷積層的特征圖;
[0045]S3、對各特征圖進行分別的分類預測,取可信度最大分類器,輸出最終預測分類結果。
[0046]通過上述步驟不難發現,在本專利技術的圖像分類過程中,該分類模型為基于Resnet50和注意力機制模塊、FPN模塊結合構建的圖像處理模型,通過基于FPN的三個分類器,最終取分類準確率最高的一個分類器,作為最后的分類結果。再結合注意力模塊CBAM的輕量級通用性,增強了整體網絡的框架的提取特征能力,最后,在cifar10公用數據集上,本專利技術通過改進的類Resnet50網絡結構,在分類準確性方面可提升Resnet50約1.28%的準確率。
[0047]需要說明的是,在本專利技術中,CBAM為注意力機制,FPN為特征金字塔。
[0048]為了更好的實現將圖像數據對focus模塊的輸入,所述數據預處理包括:
[0049]將輸入圖像格式(c,h,w)處理為(c,7h,7w);
[0050]其中,c為圖片通道數,h為圖片高度,w為圖片高度。
[0051]在本實施例中,需要補充的是,每次卷積層之后,均進行歸一化層(BN)和激活層(ReLU);例如在輸入的圖片數據格式為(3,32,32),經過數據預處理transform后為(3,224,224)。
[0052]為了實現三個不同卷積層特征圖輸出本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,其特征在于,包括以下步驟:S1、采集輸入圖片,并對圖像進行數據預處理;S2、將預處理后的圖像導入分類模型,輸出三個不同卷積層的特征圖;S3、對各特征圖進行分別的分類預測,取可信度最大分類器,輸出最終預測分類結果。2.根據權利要求1所述的一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,其特征在于,所述數據預處理包括:將輸入圖像格式(c,h,w)處理為(c,7h,7w);其中,c為圖片通道數,h為圖片高度,w為圖片高度。3.根據權利要求1所述的一種基于Resnet50結合注意力機制和特征金字塔的圖像分類方法,其特征在于,所述分類模型的處理包括:對預處理圖像進行focus模塊處理,提取不同特征;經CBAM注意力機制模塊處理得到有意義的特征;提取圖像特征,并在bottom
?
top各層輸出特征層;對特征層卷積后降通道操作,獲取統一通道數的中間特征層;對應bottom
?
top各層融合輸出特征層。4.根據權利要求3所述的一種基于Resnet...
【專利技術屬性】
技術研發人員:陳亞當,陳柳任,朱加樂,江結林,
申請(專利權)人:南京信息工程大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。