本發明專利技術公開了一種多模態輸入的嬰兒意圖識別方法及裝置,包括:獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;本發明專利技術同步采集視頻和音頻信息,同時使用嬰兒面部表情、肢體動作、啼哭聲音作為輸入,使用深度神經網絡進行端到端預測嬰兒意圖,準確率得到了提升。
【技術實現步驟摘要】
本專利技術屬于人工智能,尤其涉及一種多模態輸入的嬰兒意圖識別方法及裝置。
技術介紹
1、嬰兒語言功能未成熟,無法自主表達觀點,故他人無法理解嬰兒的動作、表情、啼哭代表的含義。本專利技術基于深度學習算法,自動識別嬰兒行為背后的意圖,解決了成人無法理解嬰兒意圖的問題。
2、現有技術僅使用圖像或者嬰兒啼哭音頻數據作為輸入數據,并且主要根據嬰兒面部表情或者啼哭音頻信號來判斷嬰兒的意圖。該類型的方法,由于僅使用圖像信息或者音頻,不可避免的遺漏了聲音、肢體動作或者圖像、肢體動作等重要信息來源,影響算法識別的準確率,且由于圖像僅包含一幀信息,無法解析嬰兒動作的連貫性。
技術實現思路
1、本專利技術的目的在于針對現有技術的不足,提供一種多模態輸入的嬰兒意圖識別方法及裝置。
2、本專利技術的目的是通過以下技術方案來實現的:一種多模態輸入的嬰兒意圖識別方法,包括:
3、獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;
4、將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;
5、所述嬰兒意圖識別模型包括以下四個模塊:
6、第一模塊:其輸入為含有嬰兒全身的視頻數據,使用人臉檢測模型檢測出人臉,并對其疊加attention算子輸出人臉特征向量;
7、第二模塊:其輸入為含有嬰兒全身的視頻數據,使用肢體檢測模型,檢測出肢體動作,并對其疊加attention算子得到肢體動作特征向量;
<
p>8、第三模塊:其輸入為嬰兒啼哭數據,對其進行處理得到嬰兒啼哭數據對應的頻譜特征向量;9、第四模塊:其輸入為人臉特征向量、肢體動作特征向量和頻譜特征向量,將三者向量進行拼接后接入全連接層,再使用softmax函數激活,經過softmax函數后的結果即為最終預測結果。
10、進一步地,人臉檢測模型的訓練包括:
11、對嬰兒人臉數據集進行打標,標記出每張樣本圖片中人臉的位置,使用打標好的數據集對人臉檢測模型進行訓練;訓練時使用的損失函數為多任務函數,分別為:1)計算候選區域的mse損失、2)計算多分類的交叉熵損失、3)計算二分類的交叉熵損失,將三者損失加權求和,即為最終損失函數。
12、進一步地,肢體檢測模型的訓練包括:
13、使用嬰兒全身照數據集,對每張嬰兒圖片標注人體關鍵點位,分別為:[{0,“nose”},{1,“neck”}{2,“rshoulder”},{3,“relbow”},{4,“rwrist”},{5,“lshoulder”},{6,“lelbow”},{7,“lwrist”},{8,“rhip”},{9,“rknee”},{10,“rankle”},{11,“lhip”},{12,“lknee”},{13,“lankle”},{14,“reye”},{15,“leye”},{16,“rear”},{17,“lear”}]得到嬰兒關鍵點數據集;使用嬰兒關鍵點數據集訓練肢體檢測模型;訓練時使用的損失函數為多任務函數,分別為:1)用于訓練關節連接的part?affinity?field?loss、2)用于訓練關節熱力圖的heatmap?loss、3)用于回歸人體框的object?detectionloss;將三者損失加權求和,即為最終損失函數。
14、進一步地,嬰兒意圖識別模型的訓練包括:
15、組成[人臉檢測數據,肢體關鍵點數據,嬰兒啼哭音頻數據,標簽]的四元組,該四元組即為訓練數據,其中,標簽為最終嬰兒意圖的標識;使用該訓練數據訓練嬰兒意圖識別模型,其中,人臉檢測模型和肢體檢測模型均已訓練好,訓練嬰兒意圖識別模型時,人臉檢測模型和肢體檢測模型的參數需要被凍結。
16、進一步地,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;
17、肢體關鍵點數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;
18、標簽數據的預處理包括:先進行離散化,再進行獨熱編碼;
19、嬰兒啼哭音頻數據的預處理包括:將嬰兒啼哭音頻數據切分為若干條數據幀,即可得到第一矩陣,將其命名為frames;對frames矩陣的每一行做fft,即得到第二矩陣,將其命名為pow_frames;最后,將梅爾濾波器運用到pos_frames上,得到第三矩陣,將其命名為mel-spectrogram,即為最終處理完成的音頻數據。
20、進一步地,所述得到嬰兒啼哭數據對應的頻譜特征向量,包括:
21、將嬰兒啼哭數據的波形信號轉化為梅爾譜圖,隨后對其疊加attention算子得到頻譜特征向量。
22、進一步地,還包括搭建嬰兒意圖識別線上服務,具體為:
23、搭建公網跳板服務器,通過cloudflare托管域名解析服務;
24、在內網服務器部署嬰兒意圖識別模型推理服務,服務器連接攝像頭,攝像頭實時錄制嬰兒;服務器連接麥克風,實時錄制嬰兒聲音;
25、內網服務器每n秒輪訓預測一次嬰兒意圖,預測流程為:接收最新的n秒攝像頭捕捉的視頻,以及對應n秒的麥克風捕捉的音頻作為輸入,執行神經網絡的前向傳播,最終經由網絡輸出層給出預測結果,代表嬰兒意圖識別模型對嬰兒意圖的識別結果。
26、本專利技術還提供了一種多模態輸入的嬰兒意圖識別裝置,包括:
27、數據獲取模塊,用于獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;
28、意圖識別模塊,用于將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;
29、所述嬰兒意圖識別模型包括以下四個模塊:
30、第一模塊:其輸入為含有嬰兒全身的視頻數據,使用人臉檢測模型檢測出人臉,并對其疊加attention算子輸出人臉特征向量;
31、第二模塊:其輸入為含有嬰兒全身的視頻數據,使用肢體檢測模型,檢測出肢體動作,并對其疊加attention算子得到肢體動作特征向量;
32、第三模塊:其輸入為嬰兒啼哭數據,對其進行處理得到嬰兒啼哭數據對應的頻譜特征向量;
33、第四模塊:其輸入為人臉特征向量、肢體動作特征向量和頻譜特征向量,將三者向量進行拼接后接入全連接層,再使用softmax函數激活,經過softmax函數后的結果即為最終預測結果。
34、本專利技術還提供了一種多模態輸入的嬰兒意圖識別裝置,包括一個或多個處理器,用于實現上述的一種多模態輸入的嬰兒意圖識別方法。
35、本專利技術還提供了一種計算機可讀存儲介質,其上存儲有程序,該程序被處理器執行時,用于實現上述的一種多模態輸入的嬰兒意圖識別方法。
36、與現有技術相比,本專利技術實施例的有益效果是:本專利技術同步采集視頻和音頻信息,同時使用嬰兒面部表情、肢體動作、啼哭聲音作為本文檔來自技高網
...
【技術保護點】
1.一種多模態輸入的嬰兒意圖識別方法,其特征在于,包括:
2.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測模型的訓練包括:
3.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,肢體檢測模型的訓練包括:
4.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,嬰兒意圖識別模型的訓練包括:
5.根據權利要求4所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;
6.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,所述得到嬰兒啼哭數據對應的頻譜特征向量,包括:
7.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,還包括搭建嬰兒意圖識別線上服務,具體為:
8.一種多模態輸入的嬰兒意圖識別裝置,其特征在于,包括:
9.一種多模態輸入的嬰兒意圖識別裝置,其特征在于,包括一個或多個處理器,用于實現權利要求1-7中任一項所述的一種多模態輸入的嬰兒意圖識別方法。
10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,該程序被處理器執行時,用于實現權利要求1-7中任一項所述的一種多模態輸入的嬰兒意圖識別方法。
...
【技術特征摘要】
1.一種多模態輸入的嬰兒意圖識別方法,其特征在于,包括:
2.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測模型的訓練包括:
3.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,肢體檢測模型的訓練包括:
4.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,嬰兒意圖識別模型的訓練包括:
5.根據權利要求4所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;
6.根據權利要求1所述...
【專利技術屬性】
技術研發人員:王毅星,
申請(專利權)人:浙江商業職業技術學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。