本發(fā)明專利技術(shù)中提出的一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,其主要內(nèi)容包括:壓縮感知網(wǎng)絡(luò)(CSNet)、CSNet算法結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)、CSNet網(wǎng)絡(luò)訓(xùn)練、壓縮感知視頻重建,其過程為,利用RNN提取運動特征,CNN提取視覺特征,融合二者所提取的信息,利用LSTM網(wǎng)絡(luò)聚集提取的所有特征,將其和隱藏狀態(tài)的推斷運動組合形成重建。本發(fā)明專利技術(shù)突破了現(xiàn)有方法在高壓縮比下難以保證視頻重建質(zhì)量的問題,設(shè)計了一種端到端的訓(xùn)練和非迭代模型,提高CS攝像機的壓縮比(CR),并且提高了視頻重建質(zhì)量,同時減少了數(shù)據(jù)傳輸?shù)膸挘沟每梢灾С指邘实囊曨l應(yīng)用。
【技術(shù)實現(xiàn)步驟摘要】
一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法
本專利技術(shù)涉及視頻壓縮和重建領(lǐng)域,尤其是涉及了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法。
技術(shù)介紹
視頻壓縮和重建常用于物理與生物科學(xué)的研究、視頻監(jiān)控、遙感技術(shù)、社交網(wǎng)絡(luò)等領(lǐng)域,在物理與生物科學(xué)的研究上,高速攝像機被用來記錄傳統(tǒng)相機所不能記載的高速率事件特征,它能記錄高速事件的高分辨率靜止圖像,例如,跟蹤“可忽略的運動模糊和圖像失真?zhèn)斡啊钡谋馇颉R曨l監(jiān)控中,可對監(jiān)控視頻中感興趣的區(qū)域進(jìn)行重建,對特定人物或車牌的圖像進(jìn)行增強提高辨識度。但是,若幀率為10kfps的攝像機拍攝分辨率為1080P的高清視頻,那么每秒可以產(chǎn)生大約500GB的數(shù)據(jù),這對現(xiàn)有的傳輸和存儲技術(shù)構(gòu)成了巨大的挑戰(zhàn),如何高效地傳輸和存儲這些大容量視頻是目前研究的熱點。本專利技術(shù)提出了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來提取時空特征,包括背景、對象細(xì)節(jié)、和運動信息,達(dá)到了更好的重建質(zhì)量。具體地,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,對于每個壓縮測量,有特定的CNN從中提取空間特征,長短記憶(LSTM)網(wǎng)絡(luò)聚集了由每個CNN提取的所有特征,和隱藏狀態(tài)的推斷運動一起形成重建。本專利技術(shù)突破了將視頻視為一系列獨立圖像的傳統(tǒng)處理方式的局限,通過RNN將時間信息應(yīng)用于重建過程,從而生成更多精確的模型,除此之外本方法還在保持較好的原始視頻視覺細(xì)節(jié)的基礎(chǔ)上,提高了壓縮比并且減少了數(shù)據(jù)傳輸?shù)膶拵В岣吡艘曨l重建質(zhì)量,支持高幀率的視頻應(yīng)用。
技術(shù)實現(xiàn)思路
針對現(xiàn)有方法在高壓縮比下難以保證視頻重建質(zhì)量的問題,本專利技術(shù)的目的在于提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,超越了傳統(tǒng)方法的限制,提高CS攝像機的壓縮比(CR),并且提高了視頻重建質(zhì)量,同時減少了數(shù)據(jù)傳輸?shù)膸挘沟每梢灾С指邘实囊曨l應(yīng)用。為解決上述問題,本專利技術(shù)提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,其主要內(nèi)容包括:(一)壓縮感知網(wǎng)絡(luò)(CSNet);(二)CSNet算法結(jié)構(gòu);(三)卷積神經(jīng)網(wǎng)絡(luò)(CNN);(四)長短期記憶(LSTM)網(wǎng)絡(luò);(五)CSNet網(wǎng)絡(luò)訓(xùn)練;(六)壓縮感知視頻重建。其中,所述的壓縮感知網(wǎng)絡(luò)(CSNet),是一種深度神經(jīng)網(wǎng)絡(luò),可以從隨機測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓(xùn)練和非迭代模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),從而利用時空特征進(jìn)行視頻重建,這個網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級壓縮比(CR)的隨機測量,分別地提供了背景信息和對象細(xì)節(jié),達(dá)到更好的重建質(zhì)量。其中,所述的CSNet算法結(jié)構(gòu),該結(jié)構(gòu)包含三個模塊:用于測量的隨機編碼、用于視覺特征提取的CNN聚類、用于時間重建的LSTM,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,可以接受多級壓縮比(CR)測量,通過此算法,關(guān)鍵幀和非關(guān)鍵幀(主要貢獻(xiàn)運動信息的其余幀)分別被壓縮,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)推算出運動信息,且將這些信息與通過卷積神經(jīng)系統(tǒng)(CNN)提取的視覺特征相結(jié)合,合成高質(zhì)量的幀,高效的信息融合,能使壓縮感知(CS)視頻應(yīng)用的保真度和壓縮比(CR)之間得達(dá)到最優(yōu)的平衡。其中,所述的卷積神經(jīng)網(wǎng)絡(luò)(CNN),該網(wǎng)絡(luò)對圖像進(jìn)行壓縮測量和外放重建,把時間壓縮和空間壓縮結(jié)合在一起以最大化壓縮比,設(shè)計一個較大的CNN來處理關(guān)鍵幀,因為關(guān)鍵幀含有高熵信息,同時,設(shè)計一個較小的CNN來處理非關(guān)鍵幀,為了減少系統(tǒng)的延遲以及簡化網(wǎng)絡(luò)結(jié)構(gòu),使用圖像塊作為輸入,此時,由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數(shù)量單調(diào)下降,此網(wǎng)絡(luò)輸入是由壓縮測量組成的m維向量,在CNN之前有一個全層,它使用這些測量生成一個二維特征圖。進(jìn)一步地,所述的時間壓縮,為獲得更高的壓縮比(CR),將包含T幀的每個視頻補丁分成K個關(guān)鍵幀和(T-K)個非關(guān)鍵幀,關(guān)鍵幀經(jīng)過低壓縮比(CR)壓縮,非關(guān)鍵幀經(jīng)過高壓縮比(CR)壓縮,使得關(guān)鍵幀的測量信息可以再次被用來重建非關(guān)鍵幀,此可看作時間壓縮。其中,所述的長短期記憶(LSTM)網(wǎng)絡(luò),用于時間重建,為獲得一個端到端訓(xùn)練的、以及計算有效的模型,不對原始輸入進(jìn)行預(yù)處理,并且利用一個LSTM網(wǎng)絡(luò)提取重建必不可少的運動特征,從而估計視頻的光流,合成的LSTM網(wǎng)絡(luò)被用于運動外推、空間視覺特征和運動的聚集,以達(dá)到視頻重建。進(jìn)一步地,所述的LSTM網(wǎng)絡(luò)訓(xùn)練過程,其特征在于,在LSTM網(wǎng)絡(luò)的訓(xùn)練過程中,起初的LSTM的M-輸入提取處理關(guān)鍵幀的CNN數(shù)據(jù),其余的(T-M)提取處理非關(guān)鍵幀的CNN輸出,對于每個LSTM單位,它將會收到關(guān)鍵幀的視覺特征,這些視覺特征用于背景重建、恢復(fù)對象的當(dāng)前幀、以及運動估計的最后幾個幀。其中,所述的CSNet網(wǎng)絡(luò)訓(xùn)練,分為兩個階段,第一個階段,預(yù)訓(xùn)練背景CNN,并且從K關(guān)鍵幀里提取視覺特征,第二個階段,給模型更多的自由來提取構(gòu)建對象所需的基本塊,然后從零開始訓(xùn)練(T-M)較小CNN,這些對象CNN和預(yù)訓(xùn)練背景CNN通過一個合成的LSTM結(jié)合,三個網(wǎng)絡(luò)一起訓(xùn)練,為減少訓(xùn)練所需的參數(shù)數(shù)量,只有關(guān)鍵幀CNN的最后幾層被結(jié)合,所以這些圖層的輸入是特征映射而不是測量,將平均歐氏損失作為損失函數(shù),即此處,W和b是網(wǎng)絡(luò)權(quán)值和偏置,xi和yi是每個圖像塊和它的CS測量,一個隨機高斯矩陣被用于CS編碼。其中,所述的壓縮感知視頻重建,建立基于信息的當(dāng)前幀,利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運動特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網(wǎng)絡(luò)聚集提取的所有特征,將其和隱藏狀態(tài)的推斷運動組合形成重建。附圖說明圖1是本專利技術(shù)一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。圖2是本專利技術(shù)一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的框架整體結(jié)構(gòu)。圖3是本專利技術(shù)一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的CSNet網(wǎng)絡(luò)訓(xùn)練示意圖。圖4是本專利技術(shù)一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。具體實施方式需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本專利技術(shù)作進(jìn)一步詳細(xì)說明。圖1是本專利技術(shù)一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。主要包括壓縮感知網(wǎng)絡(luò)(CSNet)、CSNet算法結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)、CSNet網(wǎng)絡(luò)訓(xùn)練、壓縮感知視頻重建。其中,所述的壓縮感知網(wǎng)絡(luò)(CSNet),是一種深度神經(jīng)網(wǎng)絡(luò),可以從隨機測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓(xùn)練和非迭代模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),從而利用時空特征進(jìn)行視頻重建,這個網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級壓縮比(CR)的隨機測量,分別地提供了背景信息和對象細(xì)節(jié),達(dá)到更好的重建質(zhì)量。其中,所述的CSNet算法結(jié)構(gòu),該結(jié)構(gòu)包含三個模塊:用于測量的隨機編碼、用于視覺特征提取的CNN聚類、用于時間重建的LSTM,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,可以接受多級壓本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】
一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,其特征在于,主要包括壓縮感知網(wǎng)絡(luò)(CSNet)(一);CSNet算法結(jié)構(gòu)(二);卷積神經(jīng)網(wǎng)絡(luò)(CNN)(三);長短期記憶(LSTM)網(wǎng)絡(luò)(四);CSNet網(wǎng)絡(luò)訓(xùn)練(五);壓縮感知視頻重建(六)。
【技術(shù)特征摘要】
1.一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,其特征在于,主要包括壓縮感知網(wǎng)絡(luò)(CSNet)(一);CSNet算法結(jié)構(gòu)(二);卷積神經(jīng)網(wǎng)絡(luò)(CNN)(三);長短期記憶(LSTM)網(wǎng)絡(luò)(四);CSNet網(wǎng)絡(luò)訓(xùn)練(五);壓縮感知視頻重建(六)。2.基于權(quán)利要求書1所述的壓縮感知網(wǎng)絡(luò)(CSNet)(一),其特征在于,壓縮感知網(wǎng)絡(luò)(CSNet)是一種深度神經(jīng)網(wǎng)絡(luò),可以從隨機測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓(xùn)練和非迭代模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),從而利用時空特征進(jìn)行視頻重建,這個網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級壓縮比(CR)的隨機測量,分別地提供了背景信息和對象細(xì)節(jié),達(dá)到更好的重建質(zhì)量。3.基于權(quán)利要求書2所述的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),其特征在于,對于視頻重建應(yīng)用,模擬時間進(jìn)程非常重要,通過建立基于信息的當(dāng)前幀,這些信息包含當(dāng)前幀、以及補丁之間的外推時間依賴關(guān)系,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將時間信息應(yīng)用于重建過程,可以用來生成更多精確的模型。4.基于權(quán)利要求書1所述的CSNet算法結(jié)構(gòu)(二),其特征在于,該結(jié)構(gòu)包含三個模塊:用于測量的隨機編碼、用于視覺特征提取的CNN聚類、用于時間重建的LSTM,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,可以接受多級壓縮比(CR)測量,通過此算法,關(guān)鍵幀和非關(guān)鍵幀(主要貢獻(xiàn)運動信息的其余幀)分別被壓縮,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)推算出運動信息,且將這些信息與通過卷積神經(jīng)系統(tǒng)(CNN)提取的視覺特征相結(jié)合,合成高質(zhì)量的幀,高效的信息融合,能使壓縮感知(CS)視頻應(yīng)用的保真度和壓縮比(CR)之間得達(dá)到最優(yōu)的平衡。5.基于權(quán)利要求書1所述的卷積神經(jīng)網(wǎng)絡(luò)(CNN)(三),其特征在于,該網(wǎng)絡(luò)對圖像進(jìn)行壓縮測量和外放重建,把時間壓縮和空間壓縮結(jié)合在一起以最大化壓縮比,設(shè)計一個較大的CNN來處理關(guān)鍵幀,因為關(guān)鍵幀含有高熵信息,同時,設(shè)計一個較小的CNN來處理非關(guān)鍵幀,為了減少系統(tǒng)的延遲以及簡化網(wǎng)絡(luò)結(jié)構(gòu),使用圖像塊作為輸入,此時,由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數(shù)量單調(diào)下降,此網(wǎng)絡(luò)輸入是由壓縮測量組...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:夏春秋,
申請(專利權(quán))人:深圳市唯特視科技有限公司,
類型:發(fā)明
國別省市:廣東,44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。