【技術實現步驟摘要】
本專利技術涉及視頻識別,具體為一種基于深度學習的實時手語識別系統及裝置。
技術介紹
1、手語是一種以手部動作、手勢和身體姿勢為基礎的視覺語言,被聾啞人士用來進行溝通和表達。然而,對于非手語用戶來說,理解手語并進行交流可能是一項挑戰。手語識別技術的出現為聾啞人士提供了更多的交流方式。通過利用計算機視覺和機器學習技術,手語識別系統可以將手語動作轉化為可理解的文字或語音信息,從而幫助聾啞人士與非手語用戶進行無障礙的交流。
2、手語識別的意義在于,它能夠促進聾啞人士的社交融入和參與度。這項技術使得聾啞人士能夠更輕松地與家人、朋友和社會大眾進行溝通,消除了他們在面對面交流中的障礙。此外,手語識別技術還為聾啞人士提供了更多的教育和就業機會,使他們能夠參與到更廣泛的社會活動中去。
3、目前,手語識別技術已經取得了一定的進展,但仍面臨一些挑戰。手語的多樣性和復雜性使得手語識別算法的設計變得復雜。此外,不同的手語系統存在差異,需要針對不同的手語系統進行適配和訓練。這就需要更多的研究和開發來提高手語識別的準確性和實用性。目前手語識別方式主要分為兩種,一種是通過穿戴式設備如手語識別手套,根據手套上的傳感器來采集手部動作,根據這些動作信息來進行手語識別,這種方式需要專門的穿戴設備,較為不便。另一種是基于攝像頭獲取手語視頻數據的識別方式,將手語視頻進行特征提取,然后將特征使用模板匹配或其它機器學習方法進行識別。目前這兩種手語識別方法識別率較低,難以滿足實時手語識別的需求。
4、為此,我們研發出了新的一種基于深度學習的實
技術實現思路
1、(一)解決的技術問題
2、針對現有技術的不足,本專利技術提供了一種基于深度學習的實時手語識別系統及裝置,解決了現有技術中兩種手語識別方式均存在一定的缺陷,其中,一種是通過穿戴式設備如手語識別手套,根據手套上的傳感器來采集手部動作,根據這些動作信息來進行手語識別,這種方式需要專門的穿戴設備,較為不便;另一種是基于攝像頭獲取手語視頻數據的識別方式,將手語視頻進行特征提取,然后將特征使用模板匹配或其它機器學習方法進行識別。目前這兩種手語識別方法識別率較低,難以滿足實時手語識別的需求的問題。
3、(二)技術方案
4、為實現以上目的,本專利技術通過以下技術方案予以實現:一種基于深度學習的實時手語識別系統及裝置,包括圖像采集的攝像頭模塊、數據處理分析的主機模塊和展示手語識別結果的顯示模塊,所述攝像頭將采集到的數據實時傳到數據處理分析主機模塊,經過數據預處理和神經網絡模型推理后結果傳輸到顯示模塊,用戶便可以獲取手語視頻的含義;
5、其中,使用攝像頭采集實時手語視頻數據并抽取固定長度的幀數,利用mediapipe網絡模型對抽取到的視頻幀進行人體骨骼關鍵點和面部關鍵點進行檢測,將關鍵點數據輸入transformer的編碼器網絡,輸出手語分類結果,將結果返回到手語識別系統。
6、優選的,所述實時手語識別模型的訓練和識別方法包括以下具體步驟:
7、步驟一、數據采集與預處理:
8、多人對常見的500種手語詞匯重復演示多遍,每段手語視頻錄制時長大約3s;
9、在系統發出開始識別信號后3s內,進行手語視頻錄制;
10、對錄制的視頻進行隨機抽幀,總共抽取30幀,形成一個視頻序列f=[f1,f2.....f30];
11、步驟二、面部、身體、手部關鍵點檢測:
12、使用mediapipe中的holistic模型對視頻幀中人體關鍵點進行矩陣檢測,每幀包含33個身體關鍵點的三維位置以及置信度數據、468個面部關鍵點的三維位置數據以及左右手部各21個關鍵點的三維位置數據;
13、將單幀所有的關鍵點數據進行展平操作,30幀數據總共有30*1662個數據;
14、其中,第一維度代表視頻的時間信息,第二維度數據代表視頻動作的空間信息,手語不同于簡單的空間手勢識別,是連續的時空信息,所以上述的包含了時空信息的數據點可以作為手語識別的數據要素;
15、步驟三、數據標注及訓練:
16、將得到的人體關鍵點數據進行標注,標注視頻分為500類,將標注好的視頻人體關鍵點信息和分類數據按照8:2分成訓練集和測試集;
17、將數據集送入transformer網絡進行訓練,訓練后的模型使用測試集進行效果驗證。
18、優選的,訓練過程中使用的損失函數為交叉熵損失函數,交叉熵損失函數按照預測類別與實際類別進行比較,根據概率與實際預期值的差距進行懲罰,其中,交叉熵損失函數的定義為:
19、
20、其中,ti取值為0或者1,為樣本標簽值,pi為樣本預測值為第i類的可能性。
21、優選的,所述transformer網絡編碼器包含4層,多頭注意力機制中頭的數量為6,激活函數為relu,前饋神經網絡隱藏層節點數為2048,丟失率設置為0.1,然后將輸出結果連接一個全連接神經網絡,輸出500分類的概率結果。
22、優選的,在使用訓練好的模型進行推理時,將預測結果的最大概率值作為分類結果,調節檢測的閾值可控制目標分類的結果的置信度,將置信度低于閾值的舍棄,只有置信度高于閾值的檢測結果才被認為是正確的手語分類結果。
23、(三)有益效果
24、本專利技術提供了一種基于深度學習的實時手語識別系統及裝置。具備以下有益效果:
25、本專利技術利用攝像頭獲取實時的手語rgb視頻,將視頻進行抽幀,把抽幀剩下的圖像進行圖像預處理,將處理后的數據輸入mediapipe網絡進行關鍵點檢測,之后將檢測的關鍵點數據輸入transformer網絡進行手語分類。該系統有實時性、識別率高等特點,能夠實時檢測人體關鍵點并進行手語識別,手語識別系統可以將手語動作轉化為可理解的文字或語音信息,從而幫助聾啞人士與非手語用戶進行無障礙的交流,具有廣泛的應用前景,可部署在聾啞學校、商場、醫院等地方輔助聽障人士交流。
本文檔來自技高網...【技術保護點】
1.一種基于深度學習的實時手語識別系統及裝置,包括圖像采集的攝像頭模塊、數據處理分析的主機模塊和展示手語識別結果的顯示模塊,其特征在于:所述攝像頭將采集到的數據實時傳到數據處理分析主機模塊,經過數據預處理和神經網絡模型推理后結果傳輸到顯示模塊,用戶便可以獲取手語視頻的含義;
2.根據權利要求1所述的一種基于深度學習的實時手語識別系統及裝置,其特征在于,所述實時手語識別模型的訓練和識別方法包括以下具體步驟:
3.根據權利要求2所述的一種基于深度學習的實時手語識別系統及裝置,其特征在于:訓練過程中使用的損失函數為交叉熵損失函數,交叉熵損失函數按照預測類別與實際類別進行比較,根據概率與實際預期值的差距進行懲罰,其中,交叉熵損失函數的定義為:
4.根據權利要求3所述的一種基于深度學習的實時手語識別系統及裝置,其特征在于:所述Transformer網絡編碼器包含4層,多頭注意力機制中頭的數量為6,激活函數為Relu,前饋神經網絡隱藏層節點數為2048,丟失率設置為0.1,然后將輸出結果連接一個全連接神經網絡,輸出500分類的概率結果。
5.根
...【技術特征摘要】
1.一種基于深度學習的實時手語識別系統及裝置,包括圖像采集的攝像頭模塊、數據處理分析的主機模塊和展示手語識別結果的顯示模塊,其特征在于:所述攝像頭將采集到的數據實時傳到數據處理分析主機模塊,經過數據預處理和神經網絡模型推理后結果傳輸到顯示模塊,用戶便可以獲取手語視頻的含義;
2.根據權利要求1所述的一種基于深度學習的實時手語識別系統及裝置,其特征在于,所述實時手語識別模型的訓練和識別方法包括以下具體步驟:
3.根據權利要求2所述的一種基于深度學習的實時手語識別系統及裝置,其特征在于:訓練過程中使用的損失函數為交叉熵損失函數,交叉熵損失函數按照預測類別與實際類別進行比較,根據概率與實際預期值的差距進行...
【專利技術屬性】
技術研發人員:張楨君,李陽,婁彥利,程向明,張益恭,蘇婕,劉笛,閆懷平,
申請(專利權)人:安陽工學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。