一種基于關鍵幀提取和層次性表述的視頻行為識別方法,包括:步驟1)用循環神經網絡滑動過整段視頻,提取關鍵幀特征;步驟2)將關鍵幀特征送入時域卷積神經網絡,提取整段視頻的表述特征;以及步驟3)進行視頻行為分類。該方法通過對原始視頻進行中層次特征幀抽取和高層次運動信息抽象的方式來獲得整段視頻的完整表述,在此基礎上設計行為分類器實現從端(視頻輸入)到端(行為類別輸出)視頻行為分類。該方法能夠實現對于長視頻和結構化分布的視頻的完整表述;能夠滿足現實場景下某些對實時運算要求較高的應用需求。
A method of video behavior recognition based on key frame extraction and hierarchical representation
【技術實現步驟摘要】
一種基于關鍵幀提取和層次性表述的視頻行為識別方法
本專利技術涉及視頻行為分析
,具體涉及到一種基于關鍵幀提取和層次性表述的視頻行為識別方法。
技術介紹
隨著自媒體時代的到來,互聯網上每天都有用戶上傳海量的視頻。以YouTube為例,每分鐘全球用戶上傳的視頻量約為500小時。這里面有大量的視頻內容是不健康的,比如:犯罪、色情等。用人工檢索的方式對這些海量的數據進行查看和監管是一項耗時費力的工作。近年來,一些專家學者嘗試使用計算機視覺的方法對視頻內容進行自動地識別,且取得了一些不錯的進展。總體來看,這些方法多是依賴光流特征來刻畫運動信息,并且使用隨機抽樣地方式來處理較長的視頻。這樣做會帶來兩個明顯的缺陷:1.光流計算需要大量的運算資源,而且一般都是預先離線處理,這樣限制了算法在現實場景下的實時運行;2.對較長的視頻進行隨機抽取可能會漏掉一些關鍵的信息,而且在很多情況下視頻內容是結構化分布的,僅對隨機抽取到的某一段內容進行分析無法得到可靠的分類預測。例如:跳高和跳遠兩項體育運動,兩者的前半段都是助跑,如果隨機抽取的內容只包含前半段信息是無法區分兩者的。
技術實現思路
本專利技術的目的是提供一種基于關鍵幀提取和層次性表述的視頻行為識別方法,通過對原始視頻進行中層次特征幀抽取和高層次運動信息抽象的方式來獲得整段視頻的完整表述,在此基礎上設計行為分類器實現從端(視頻輸入)到端(行為類別輸出)視頻行為分類。該方法能夠實現對于長視頻和結構化分布的視頻的完整表述;能夠滿足現實場景下某些對實時運算要求較高的應用需求。本專利技術的技術方案:根據本專利技術的一個方面,提供了一種基于關鍵幀提取和層次性表述的視頻行為識別方法,包括:步驟1)用循環神經網絡滑動過整段視頻,提取關鍵幀特征;步驟2)將關鍵幀特征送入時域卷積神經網絡,提取整段視頻的表述特征;以及步驟3)進行視頻行為分類。優選地,在上述視頻行為識別方法中,步驟1)包括通過循環神經網絡在視頻中滑動來抽取每個視頻結構單元的關鍵幀特征;在單個視頻結構單元中,輸入圖像通過卷積神經網絡抽取深度表述特征,然后輸入到循環神經網絡進行關鍵幀判定。優選地,在上述視頻行為識別方法中,循環神經網絡包含圖片特征提取層、隱狀態層和判定輸出模塊,在單個視頻結構單元中,輸入圖像經過圖片特征提取層提取深度表述特征,記為Fp;將Fp進行時序信息關聯和處理,經過隱狀態層11運算,輸出中間隱特征Hp;將Hp輸入到關鍵幀檢測網絡層,得到關鍵幀檢測結果,即該幀是否為關鍵幀的判定Pk。優選地,在上述視頻行為識別方法中,在步驟2)中,將從步驟1)提取的關鍵幀特征輸入到時域卷積神經網絡中,進行時間域卷積運算提取整段視頻的表述特征Fv,其中,時間域卷積過程可以表述為下式(1):其中,為視頻表述特征Fv第j個通道的輸出,fi為時間卷積第i個通道的輸入,共有m個輸入通道,為第i個卷積核。優選地,在上述視頻行為識別方法中,在步驟3)中,將步驟2)所得的整段視頻的表述特征送入到行為分類層進行運算,最后輸出行為類別預測結果,其中,行為分類層包括2個512*512的全連接層。根據本專利技術的另一方面,還提供了一種基于關鍵幀提取和層次性表述的視頻行為識別設備,包括中層關鍵幀提取模塊和高層視頻表述模塊,其中,中層關鍵幀提取模塊,用于從整段視頻提取關鍵幀特征;以及高層視頻表述模塊,用于將關鍵幀特征送入時域卷積神經網絡,提取整段視頻的表述特征。優選地,在上述視頻行為識別設備中,中層關鍵幀提取模塊用于,通過循環神經網絡在視頻中滑動來抽取每個視頻結構單元的關鍵幀特征;在單個視頻結構單元中,輸入圖像通過卷積神經網絡抽取深度表述特征,然后輸入到循環神經網絡進行關鍵幀判定。優選地,在上述視頻行為識別設備中,循環神經網絡包括圖片特征提取層、隱狀態層和判定輸出模塊,在單個視頻結構單元中,輸入圖像經過圖片特征提取層提取深度表述特征,記為Fp;將Fp進行時序信息關聯和處理,經過隱狀態層11運算,輸出中間隱特征Hp;將Hp輸入到關鍵幀檢測網絡層,得到關鍵幀檢測結果,即該幀是否為關鍵幀的判定Pk優選地,在上述視頻行為識別設備中,高層視頻表述模塊,用于將提取的關鍵幀特征輸入到時域卷積神經網絡中,進行時間域卷積運算提取整段視頻的表述特征Fv,其中,時間域卷積過程可以表述為下式(1):其中,為視頻表述特征Fv第j個通道的輸出,fi為時間卷積第i個通道的輸入,共有m個輸入通道,為第i個卷積核。優選地,在上述視頻行為識別設備中,還包括行為分類層,用于進行視頻行為分類。與現有技術相比,本專利技術的有益效果是:本專利技術方法,在對視頻中存在的行為事件進行檢測時,采用了一種層次性結構信息提取的模式。相比于傳統的基于光流和隨機采樣的行為事件檢測方法,能夠實現對于長視頻和結構化分布的視頻的完整表述;同時,由于采用關鍵幀提取和連續時域特征卷積的方法,避免了光流運算帶來的巨大計算開銷,能夠滿足現實場景下某些對實時運算要求較高的應用需求。附圖說明下面結合附圖,通過實施例子對本專利技術進一步說明如下:圖1為本專利技術的基于關鍵幀提取和層次性表述的視頻行為識別方法的流程圖;圖2為本專利技術方法采用的視頻行為識別模型的網絡結構圖;圖3為本專利技術方法采用的循環神經網絡滑動檢測圖;圖4為本專利技術方法采用的循環神經網絡的結構圖。具體實施方式本專利技術的基于關鍵幀提取和層次性表述的視頻行為識別方法,采用深度學習模型構建兩級特征提取模塊來對整段視頻進行表征,即,中層關鍵幀提取模塊和高層視頻表述模塊,分別負責視頻片段關鍵幀分析和整段視頻特征表述。其中,中層關鍵幀提取模塊由單向循環神經網絡構成,用來提取不同視頻片段的關鍵幀;高層視頻表述模塊由時域卷積神經網絡構成,用來對整段視頻進行特征編碼。在此特征表述基礎上完成視頻行為識別任務。這種層次性表述的方法能夠對整段視頻進行完整的表征,特別是針對持續時間較長且行為是由若干動作片段構成的視頻,層次性分析的方法可以有效地表述行為的分層結構特性。相比于以往的基于光流分析和隨機抽樣技術的視頻行為分析方法,本專利技術提出的技術方案具有下述特性:1.層次性分析的方法符合視頻行為的結構化分層特性,能夠對長視頻提取完整的行為表征;2.通過對連續關鍵幀的特征進行描述來表征動作行為,相比于光流方法,極大地節省了計算資源,有利于算法在現實場景下的實時運行。本專利技術方法的原理是:1.)通過對視頻進行層次性結構建模來挖掘視頻中行為事件的結構化信息:中層次信息對應著行為事件的結構單元,高層次信息對應著行為事件的整體表述;2.)通過關鍵幀提取來挖掘視頻行為的中層次信息,對連續關鍵幀特征進行時間域卷積來表征整段視頻的行為特性。本專利技術提出的基于關鍵幀提取和層次性表述的視頻行為識別方法包括三個部分:使用一個固定時間步長的循環神經網絡滑動過整段視頻,提取指定時間間隔內的視頻關鍵幀;把連續關鍵幀的深度特征送入一個卷積神經網絡,該卷積神經網絡在本文檔來自技高網...
【技術保護點】
1.一種基于關鍵幀提取和層次性表述的視頻行為識別方法,其特征在于,包括:/n步驟1)用循環神經網絡滑動過整段視頻,提取關鍵幀特征;/n步驟2)將所述關鍵幀特征送入時域卷積神經網絡,提取整段視頻的表述特征;以及/n步驟3)進行視頻行為分類。/n
【技術特征摘要】
1.一種基于關鍵幀提取和層次性表述的視頻行為識別方法,其特征在于,包括:
步驟1)用循環神經網絡滑動過整段視頻,提取關鍵幀特征;
步驟2)將所述關鍵幀特征送入時域卷積神經網絡,提取整段視頻的表述特征;以及
步驟3)進行視頻行為分類。
2.根據權利要求1所述的視頻行為識別方法,其特征在于,所述步驟1)包括通過循環神經網絡在視頻中滑動來抽取每個視頻結構單元的關鍵幀特征;在單個視頻結構單元中,輸入圖像通過卷積神經網絡抽取深度表述特征,然后輸入到循環神經網絡進行關鍵幀判定。
3.根據權利要求1所述的視頻行為識別方法,其特征在于,所述循環神經網絡包含圖片特征提取層、隱狀態層和判定輸出模塊,在單個視頻結構單元中,所述輸入圖像經過所述圖片特征提取層提取深度表述特征,記為Fp;將Fp進行時序信息關聯和處理,經過隱狀態層11運算,輸出中間隱特征Hp;將Hp輸入到關鍵幀檢測網絡層,得到關鍵幀檢測結果,即該幀是否為關鍵幀的判定Pk。
4.根據權利要求1所述的視頻行為識別方法,其特征在于,在所述步驟2)中,將從步驟1)提取的所述關鍵幀特征輸入到所述時域卷積神經網絡中,進行時間域卷積運算提取整段視頻的表述特征Fv,其中,時間域卷積過程可以表述為下式(1):
其中,為視頻表述特征Fv第j個通道的輸出,fi為時間卷積第i個通道的輸入,共有m個輸入通道,為第i個卷積核。
5.根據權利要求1所述的視頻行為識別方法,其特征在于,在所述步驟3)中,將所述步驟2)所得的所述整段視頻的所述表述特征送入到行為分類層進行運算,最后輸出行為類別預測結果,其中,所述行為...
【專利技術屬性】
技術研發人員:李楠楠,張世雄,趙翼飛,李若塵,李革,安欣賞,張偉民,
申請(專利權)人:深圳龍崗智能視聽研究院,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。