【技術實現步驟摘要】
一種基于文本感知損失的注意力文本超分辨率方法
[0001]本專利技術涉及圖像處理
,具體涉及一種基于文本感知損失的注意力文本超分辨率方法。
技術介紹
[0002]場景文本超分辨率是以給定的低分辨率圖片作為輸入,通過深度神經網絡得到更高分辨率的場景文本圖片。該任務與一般的圖片超分辨率任務相比,主要用于配合場景文本識別和場景文本檢測算法以提升這兩種方法的性能。因此,場景文本超分辨率技術已發展成為光學字符識別(OCR)任務的關鍵組成部分。
[0003]超分辨率目的在于輸出與給定低分辨率圖像一致的合理高分辨率圖像,傳統方法,如雙線性、雙三次,利用了相鄰像素通常呈現相似顏色的想法,并根據預定義公式通過在相鄰像素的顏色之間插值來生成輸出。而在深度學習時代,超分辨率被視為回歸問題,其中輸入是低分辨率圖像,目標輸出是高分辨率圖像,在輸入和目標輸出對上訓練深度神經網絡,以最小化預測和GT之間的距離度量。這些工作主要是在合成數據集上進行的,即其中的低分辨率圖像通常由下采樣插值或高斯模糊濾波器生成,而在最近的針對場景文本超分辨率的工作中提出了一個新的數據集TextZoom,它填補了真實場景下文本超分辨率數據集的不足,此后,針對場景文本超分辨率的工作也逐漸多了起來。
[0004]最早針對真實場景下場景文本超分辨率的工作發表于2020年的ECCV《Scene Text Image Super
?
Resolution in the Wild》,該方法采用TextZoom進行訓練和測試,并引入了TPS />?
align模塊用于解決低分辨率圖片和高分辨率圖片之間的像素不對齊問題,同時沿用了SRResNet的基礎結構,使用了5個順序的基本塊作為網絡的基礎結構,并在基本塊中加入了兩個正交方向的Gru用于建模兩個正交方向的上下文特征。由于該模型是第一個針對場景文本任務的模型,因此其性能在當時也是取得了最優的,并且該網絡也成為了場景文本超分辨率任務中一個經典的基礎結構,在其之后的相關工作都是在該結構的基礎上進行的相關改進,以獲得更優秀性能的模型。
技術實現思路
[0005]本專利技術的目的是提供一種基于文本感知損失的注意力文本超分辨率方法,以獲得更有性能的超分辨率圖像。
[0006]為達到上述目的,本專利技術采用的技術方案是:
[0007]一種基于文本感知損失的注意力文本超分辨率方法,包括:
[0008]S1:輸入三通道RGB文本圖片,并計算該文本圖片的灰度形式的平均值,
[0009]S2:獲取該文本圖片的二進制單通道分割掩碼,并將該二進制單通道掩碼與三通道RGB文本圖片進行通道連接,并將結果輸入至文本超分辨網絡中,
[0010]S3:對輸入的圖片做像素級校正,
[0011]S4:校正后的圖片輸入到基本塊中,該基本塊包含兩個正交方向的Gru模型、通道
注意力、空間注意力用于細化特征,
[0012]S5:將基本塊輸出的超分辨率圖片和其對應的高分辨率圖計算獲得MSE損失函數、SFM損失函數作為總的損失函數進行反向梯度傳播,并最終輸出三通道的超分辨率圖片。
[0013]上述技術方案優選地,在S2中,創建一個單通道張量,根據S1中的平均值對該單通道張量賦值,大于該平均值的灰度值設置為255,小于該平均值的灰度值設置為0,獲取該文本圖片的二進制單通道分割掩碼。
[0014]上述技術方案優選地,在S2中,通過基于閾值的語義分割方法獲取二進制單通道分割掩碼。
[0015]上述技術方案優選地,在S2中,通過計算平均值的方法將文本圖片劃分成文字、背景兩個部分,將二進制單通道掩碼與文本圖片進行通道連接。
[0016]上述技術方案優選地,使用TPS
?
align模塊對輸入的圖片做像素級校正。
[0017]上述技術方案優選地,在S4中,在基本塊中,先通過兩個正交方向的Gru模型產生上下文信息感知的特征,再通過通道注意力、空間注意力細化特征關注超分辨率所需要的高頻信息。
[0018]進一步優選地,上下文信息感知的特征為:
[0019][0020][0021]其中:Ht表示Gru中的隱藏層,t1,t2分別表示水平方向和垂直方向的循環連接,X
t
表示輸入特征,φ表示Gru定義的矩陣運算。
[0022]進一步優選地,通道注意力、空間注意力的方法為:
[0023][0024][0025]其中:F表示輸入特征,Mc表示通道注意力,σ表示Sigmoid函數,MLP表示多層感知機制,AvgPool表示平均池化,MaxPool表示最大池化,Ms表示空間注意力,f表示卷積運算。
[0026]進一步優選地,在S5中,使用預訓練好的場景文字識別模型CRNN作為判別器,超分辨率圖片和高分辨率圖片分別作為該判別器的輸入以得到二者對應的語義特征,兩個特征之間的差值通過L1損失函數計算獲得所求的感知損失函數。
[0027]進一步優選地,在S5中,使用由成對低分辨率
?
高分辨率圖片對組成的數據集TextZoom做訓練和測試數據集。
[0028]由于上述技術方案運用,本專利技術與現有技術相比具有下列優點:
[0029]本專利技術通過生成分割掩碼從而將語義分割信息引入到場景文字超分辨率模型中,并考慮到了利用注意力機制細化雙向Gru輸出的上下文特征以使模型更加關注該任務所需要的高頻信息,結合預訓練好的識別模型來計算感知損失函數以將識別模型的語義信息引入到場景文字超分辨率模型中,取得了相比此前模型更優秀的性能。
附圖說明
[0030]附圖1為本專利技術方法的流程示意圖;
[0031]附圖2a、2b為本專利技術方法的分割效果對比圖;
[0032]附圖3為本專利技術方法基本塊的框架示意圖;
[0033]附圖4為本專利技術方法的通道注意力結構;
[0034]附圖5為本專利技術方法的空間注意力結構。
具體實施方式
[0035]下面將結合附圖對本專利技術的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。
[0036]如圖1、2所示的一種基于文本感知損失的注意力文本超分辨率方法,其考慮到了利用語義分割信息,注意力機制以及感知損失來優化場景文字超分辨率模型。具體包括以下步驟:
[0037]輸入三通道RGB文本圖片,并計算該文本圖片的灰度形式的平均值,創建一個單通道張量,根據S1中的平均值對該單通道張量賦值,針對RGB文本圖片的灰度形式,大于該平均值的灰度值設置為255,小于該平均值的灰度值設置為0,這樣做的目的是為了獲得一個單通道的文本圖片“非0即1”二進制分割掩碼,并將該二進制單通道掩碼與三通道RGB文本圖片進行通道連接以利用原圖片的語義分割信息。
[0038]引入語義分割信息能本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于文本感知損失的注意力文本超分辨率方法,其特征在于:包括:S1:輸入三通道RGB文本圖片,并計算該文本圖片的灰度形式的平均值,S2:獲取該文本圖片的二進制單通道分割掩碼,并將該二進制單通道掩碼與三通道RGB文本圖片進行通道連接,并將結果輸入至文本超分辨網絡中,S3:對輸入的圖片做像素級校正,S4:校正后的圖片輸入到基本塊中,該基本塊包含兩個正交方向的Gru模型、通道注意力、空間注意力用于細化特征,S5:將基本塊輸出的超分辨率圖片和其對應的高分辨率圖計算獲得MSE損失函數、SFM損失函數作為總的損失函數進行反向梯度傳播,并最終輸出三通道的超分辨率圖片。2.根據權利要求1所述的基于文本感知損失的注意力文本超分辨率方法,其特征在于:在S2中,創建一個單通道張量,根據S1中的平均值對該單通道張量賦值,大于該平均值的灰度值設置為255,小于該平均值的灰度值設置為0,獲取該文本圖片的二進制單通道分割掩碼。3.根據權利要求1所述的基于文本感知損失的注意力文本超分辨率方法,其特征在于:在S2中,通過基于閾值的語義分割方法獲取二進制單通道分割掩碼。4.根據權利要求1所述的基于文本感知損失的注意力文本超分辨率方法,其特征在于:在S2中,通過計算平均值的方法將文本圖片劃分成文字、背景兩個部分,將二進制單通道掩碼與文本圖片進行通道連接。5.根據權利要求1所述的基于文本感知損失的注意力文本超分辨率方法,其特征在于:使用TPS
?
align模塊對輸入的圖片做像素級校正。6.根據權...
【專利技術屬性】
技術研發人員:鄧若愚,胡尚薇,
申請(專利權)人:同濟人工智能研究院蘇州有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。