一種多模態輸入的嬰兒意圖識別方法及裝置制造方法及圖紙

技術編號：45036793 閱讀：23 留言：0更新日期：2025-04-18 17:19

本發明專利技術公開了一種多模態輸入的嬰兒意圖識別方法及裝置，包括：獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據；將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中，對嬰兒意圖進行識別；本發明專利技術同步采集視頻和音頻信息，同時使用嬰兒面部表情、肢體動作、啼哭聲音作為輸入，使用深度神經網絡進行端到端預測嬰兒意圖，準確率得到了提升。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于人工智能，尤其涉及一種多模態輸入的嬰兒意圖識別方法及裝置。

技術介紹

1、嬰兒語言功能未成熟，無法自主表達觀點，故他人無法理解嬰兒的動作、表情、啼哭代表的含義。本專利技術基于深度學習算法，自動識別嬰兒行為背后的意圖，解決了成人無法理解嬰兒意圖的問題。

2、現有技術僅使用圖像或者嬰兒啼哭音頻數據作為輸入數據，并且主要根據嬰兒面部表情或者啼哭音頻信號來判斷嬰兒的意圖。該類型的方法，由于僅使用圖像信息或者音頻，不可避免的遺漏了聲音、肢體動作或者圖像、肢體動作等重要信息來源，影響算法識別的準確率，且由于圖像僅包含一幀信息，無法解析嬰兒動作的連貫性。

技術實現思路

1、本專利技術的目的在于針對現有技術的不足，提供一種多模態輸入的嬰兒意圖識別方法及裝置。

2、本專利技術的目的是通過以下技術方案來實現的：一種多模態輸入的嬰兒意圖識別方法，包括：

3、獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據；

4、將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中，對嬰兒意圖進行識別；

5、所述嬰兒意圖識別模型包括以下四個模塊：

6、第一模塊：其輸入為含有嬰兒全身的視頻數據，使用人臉檢測模型檢測出人臉，并對其疊加attention算子輸出人臉特征向量；

7、第二模塊：其輸入為含有嬰兒全身的視頻數據，使用肢體檢測模型，檢測出肢體動作，并對其疊加attention算子得到肢體動作特征向量；

<...

【技術特征摘要】

1.一種多模態輸入的嬰兒意圖識別方法，其特征在于，包括：

2.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法，其特征在于，人臉檢測模型的訓練包括：

3.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法，其特征在于，肢體檢測模型的訓練包括：

4.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法，其特征在于，嬰兒意圖識別模型的訓練包括：

5.根據權利要求4所述的一種多模態輸入的嬰兒意圖識別方法，其特征在于，人臉檢測數據中的圖像數據預處理包括：使用翻轉、平移、裁剪、對比度調節數據增強技術，擴展訓練數據的多樣性；

6.根據權利要求1所述...

【專利技術屬性】
技術研發人員：王毅星，
申請(專利權)人：浙江商業職業技術學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術