一種基于機器學習的三維人體姿態估計方法及系統技術方案

技術編號：44014181 閱讀：11 留言：0更新日期：2025-01-15 01:00

本發明專利技術公開了一種基于機器學習的三維人體姿態估計方法及系統，所述方法包括：構建姿態估計數據集；訓練并優化特征提取模型、特征降維模型和回歸模型的網絡參數；利用特征提取模型提取目標圖像的特征向量，并利用特征降維模型進行特征降維，最后將降維后的特征向量輸入到回歸模型中，以預測人體各關鍵點的三維坐標。本發明專利技術采用基于二階段增強的生成對抗網絡用于數據擴充，有助于提高模型的泛化能力；采用基于聚變現象的神經網絡參數優化算法對特征提取模型的網絡參數進行優化，避免了梯度消失或爆炸的問題；在編碼器和解碼器之間引入稀疏自表達層，減少了特征間的相關性；采用逆向強化學習機制調整回歸模型的預測策略，顯著提高了預測的準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于計算機視覺，尤其涉及一種基于機器學習的三維人體姿態估計方法及系統。

技術介紹

1、在人工智能和計算機視覺領域，三維人體姿態估計是一個重要的研究方向，但是，三維人體姿態估計的數據采集常常依賴于高成本的設備如深度相機或多視角攝像系統，這些設備雖然能夠提供豐富的三維信息，但在實際應用中卻受限于設備的布局和成本。此外，現有的三維姿態估計方法大多基于傳統的機器學習技術或初級的深度學習模型，這些方法在處理復雜的人體動態時常常表現出不足。而且，關于網絡模型的訓練和優化，盡管深度神經網絡在圖像識別和特征學習方面表現出色，但在訓練過程中仍然存在梯度消失或爆炸的問題，特別是在復雜網絡結構或深層網絡中更是如此。這些問題不僅阻礙了模型訓練的效率，還限制了模型在新數據上的泛化能力。

2、申請號為cn2023117602515的專利技術專利提出一種基于尺度特征和層級特征融合的人體姿態估計方法，包括以下步驟；步驟一，對輸入圖像采用高分辨率網絡進行初步特征提取，獲取多尺度融合后的不同層級特征；步驟二，通過期望最大化注意力與加權雙向特征金字塔網絡組合模塊對所述不同層級特征進行多層級特征提純與聚合，得到輸出特征；步驟三，通過基于殘差結構的關鍵點檢測頭完成輸出特征的最終融合，得到人體不同關鍵點的熱力圖；步驟四，將人體關鍵點熱圖進行坐標解碼，得到對應關節的位置坐標，進行人體姿態估計。該專利技術能夠更全面地從細節到整體地捕捉人體的姿態信息，從而提高復雜情形下的人體姿態估計準確性。

3、申請號為cn2021108119131的專利技術

4、申請號為cn2023115724607的專利技術專利提出一種基于漸進濾波融合的人體姿態估計方法，先通過兩臺azure?kinect?dk相機進行數據采集，并確定初始數據，然后進行數據濾波融合處理，利用馬氏距離對兩臺azure?kinect?dk相機的初始數據進行分類處理，篩選并棄用受視覺遮擋影響較大的azure?kinect?dk相機的量測信息，對于確定的受視覺遮擋影響較小的一臺azure?kinect?dk相機的量測信息，通過另外一臺azure?kinect?dk相機的量測信息進行引導該臺azure?kinect?dk相機的量測信息進行漸進濾波融合，從而達到隱式補償的效果，最后進行全局融合從而進一步提高了人體姿態估計的精度；優點是兼具低成本和高精度，且不需要測試者佩戴關節點標記，不會給測試者造成不便。

5、上述技術方案雖然具備一定的有益效果，但仍存在以下問題需要進一步解決：

6、1、傳統的數據增強技術無法有效處理生成圖像的細節質量和噪聲問題，限制了訓練數據的可用性和質量。

7、2、現有的梯度下降等方法在某些深層網絡結構中可能會遇到梯度相關問題，影響訓練效率和模型的穩定性。

8、3、傳統自編碼器在處理高度相關的數據特征時可能會遇到過擬合問題。

9、4、現有的回歸模型在處理時間序列預測問題時，未能充分利用未來信息來優化當前的預測策略。

技術實現思路

1、為解決上述技術問題，本專利技術提供一種基于機器學習的三維人體姿態估計方法及系統，具體的技術方案如下：

2、一種基于機器學習的三維人體姿態估計方法，包括以下步驟：

3、s1、采集人體動作圖像數據，構建人體姿態估計數據集；

4、s2、構建特征提取模型，訓練并優化特征提取模型的網絡參數；

5、s3、構建特征降維模型，訓練并優化特征降維模型的網絡參數；

6、s4、構建回歸模型，訓練并優化回歸模型的網絡參數；

7、s5、利用特征提取模型提取目標人體圖像的特征向量，將特征向量輸入到特征降維模型中進行降維，并將降維后的特征向量輸入到回歸模型中，以預測人體各關鍵點的三維坐標。

8、進一步地，步驟s1中，利用基于二階段增強的生成對抗網絡，對采集到的圖像數據進行數據增強與擴從；所述基于二階段增強的生成對抗網絡為：在傳統生成對抗網絡的基礎上，在生成器的輸出和判別器的輸入之間增設一個增強網絡，該增強網絡用于對生成器的輸出進行細節增強和噪聲抑制，以提高圖像生成的質量。

9、進一步地，所述基于二階段增強的生成對抗網絡的訓練步驟包括：

10、s101、初始化生成器和判別器的網絡參數；

11、s102、使用采集到的真實圖像數據對判別器進行預訓練；

12、s103、生成器根據當前的網絡參數生成圖像，然后通過增強網絡進行第二階段增強處理，生成最終的圖像數據，并最小化以下生成器損失函數：

13、

14、其中，m為生成的樣本數量，zj為隨機噪聲向量，g(zj)為生成器根據zj生成的數據；

15、然后計算生成器和判別器的損失，并根據損失結果調整更新生成器和判別器的網絡參數，分別表示為：

16、

17、其中，θg和θd分別為生成器和判別器的網絡參數，αb為生成器和判別器的學習率，為生成器損失關于其參數的梯度，為判別器損失關于其參數的梯度；

18、s104、在每個訓練迭代周期結束后，根據判別器的反饋調整增強網絡的參數，增強網絡的參數θe及其更新表示為：

19、

20、其中，為增強網絡損失losse關于其參數的梯度，k為數據維度，ek是增強網絡對第k維特征的輸出，xjk是真實樣本xj的第k維特征；

21、s105、重復迭代上述步驟，直至滿足預設的停止迭代條件。

22、進一步地，步驟s2中，所述特征提取模型包括依次連接的輸入層、第一隱藏層、第二隱藏層和輸出層，其中，輸出層僅用于在訓練階段進行類別監督，第二隱藏層的輸出即為提取的特征向量；所述特征提取模型采用基于聚變現象的神經網絡參數優化方法，包括步驟：

23、s201、初始化特征提取模型的網絡參數，并定義能量狀態函數e(w,b)：

24、

25、其中，xi表示輸入數據，yi是對應的目標輸出，n是數據集中樣本的數量，k是特征的尺度數量，w為網絡權重，b為網絡偏置；ak(t)是第k個尺度的自適應權重；

26、s202、對每一對參數wj和bk進行評估，以判斷是否能通過聚變降低系統能量：

27、δe＝e(w′j,b′k)-e(wj,bk)，

28、且，參數的聚變行為表示為：

本文檔來自技高網...

【技術保護點】

1.一種基于機器學習的三維人體姿態估計方法，其特征在于，包括以下步驟：

2.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟S1中，利用基于二階段增強的生成對抗網絡，對采集到的圖像數據進行數據增強與擴從；所述基于二階段增強的生成對抗網絡為：在傳統生成對抗網絡的基礎上，在生成器的輸出和判別器的輸入之間增設一個增強網絡，該增強網絡用于對生成器的輸出進行細節增強和噪聲抑制，以提高圖像生成的質量。

3.如權利要求2所述的三維人體姿態估計方法，其特征在于，所述基于二階段增強的生成對抗網絡的訓練步驟包括：

4.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟S2中，所述特征提取模型包括依次連接的輸入層、第一隱藏層、第二隱藏層和輸出層，其中，輸出層僅用于在訓練階段進行類別監督，第二隱藏層的輸出即為提取的特征向量；所述特征提取模型采用基于聚變現象的神經網絡參數優化方法，包括步驟：

5.如權利要求4所述的三維人體姿態估計方法，其特征在于，步驟S201中，ak(t)在每次迭代時進行動態更新，更新方式為：

6.如權利要求4所述

7.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟S3中，所述特征降維模型包括編碼器和解碼器，以及設置在編碼器和解碼器之間的稀疏自表達層；所述編碼器負責將高維的輸入特征轉換為低維隱藏表示，所述解碼器則嘗試從低隱藏維表示中恢復原始的高維數據，所述稀疏自表達層用于鼓勵模型學習僅用少數幾個激活單元來表示數據，以提高特征的魯棒性。

8.如權利要求7所述的三維人體姿態估計方法，其特征在于，所述特征降維模型的訓練包括以下步驟：

9.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟S4中，所述回歸模型采用長短期記憶網絡模型，并采用逆向強化學習機制，通過最大化預期未來獎勵來調整預測策略，優化模型的預測準確性；所述回歸模型的訓練包括：

10.一種基于權利要求2～9任一項所述方法的三維人體姿態估計系統，其特征在于，包括以下模塊：

...

【技術特征摘要】

1.一種基于機器學習的三維人體姿態估計方法，其特征在于，包括以下步驟：

2.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟s1中，利用基于二階段增強的生成對抗網絡，對采集到的圖像數據進行數據增強與擴從；所述基于二階段增強的生成對抗網絡為：在傳統生成對抗網絡的基礎上，在生成器的輸出和判別器的輸入之間增設一個增強網絡，該增強網絡用于對生成器的輸出進行細節增強和噪聲抑制，以提高圖像生成的質量。

3.如權利要求2所述的三維人體姿態估計方法，其特征在于，所述基于二階段增強的生成對抗網絡的訓練步驟包括：

4.如權利要求1所述的三維人體姿態估計方法，其特征在于，步驟s2中，所述特征提取模型包括依次連接的輸入層、第一隱藏層、第二隱藏層和輸出層，其中，輸出層僅用于在訓練階段進行類別監督，第二隱藏層的輸出即為提取的特征向量；所述特征提取模型采用基于聚變現象的神經網絡參數優化方法，包括步驟：

5.如權利要求4所述的三維人體姿態估計方法，其特征在于，步驟s201中，ak(t)在每次迭代時進行動態更新，更新方式為：

...

【專利技術屬性】
技術研發人員：蔡紹濱，陳煒倫，
申請(專利權)人：湖州師范學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術