• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種多模態輸入的嬰兒意圖識別方法及裝置制造方法及圖紙

    技術編號:45036793 閱讀:23 留言:0更新日期:2025-04-18 17:19
    本發明專利技術公開了一種多模態輸入的嬰兒意圖識別方法及裝置,包括:獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;本發明專利技術同步采集視頻和音頻信息,同時使用嬰兒面部表情、肢體動作、啼哭聲音作為輸入,使用深度神經網絡進行端到端預測嬰兒意圖,準確率得到了提升。

    【技術實現步驟摘要】

    本專利技術屬于人工智能,尤其涉及一種多模態輸入的嬰兒意圖識別方法及裝置


    技術介紹

    1、嬰兒語言功能未成熟,無法自主表達觀點,故他人無法理解嬰兒的動作、表情、啼哭代表的含義。本專利技術基于深度學習算法,自動識別嬰兒行為背后的意圖,解決了成人無法理解嬰兒意圖的問題。

    2、現有技術僅使用圖像或者嬰兒啼哭音頻數據作為輸入數據,并且主要根據嬰兒面部表情或者啼哭音頻信號來判斷嬰兒的意圖。該類型的方法,由于僅使用圖像信息或者音頻,不可避免的遺漏了聲音、肢體動作或者圖像、肢體動作等重要信息來源,影響算法識別的準確率,且由于圖像僅包含一幀信息,無法解析嬰兒動作的連貫性。


    技術實現思路

    1、本專利技術的目的在于針對現有技術的不足,提供一種多模態輸入的嬰兒意圖識別方法及裝置。

    2、本專利技術的目的是通過以下技術方案來實現的:一種多模態輸入的嬰兒意圖識別方法,包括:

    3、獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;

    4、將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;

    5、所述嬰兒意圖識別模型包括以下四個模塊:

    6、第一模塊:其輸入為含有嬰兒全身的視頻數據,使用人臉檢測模型檢測出人臉,并對其疊加attention算子輸出人臉特征向量;

    7、第二模塊:其輸入為含有嬰兒全身的視頻數據,使用肢體檢測模型,檢測出肢體動作,并對其疊加attention算子得到肢體動作特征向量;

    <p>8、第三模塊:其輸入為嬰兒啼哭數據,對其進行處理得到嬰兒啼哭數據對應的頻譜特征向量;

    9、第四模塊:其輸入為人臉特征向量、肢體動作特征向量和頻譜特征向量,將三者向量進行拼接后接入全連接層,再使用softmax函數激活,經過softmax函數后的結果即為最終預測結果。

    10、進一步地,人臉檢測模型的訓練包括:

    11、對嬰兒人臉數據集進行打標,標記出每張樣本圖片中人臉的位置,使用打標好的數據集對人臉檢測模型進行訓練;訓練時使用的損失函數為多任務函數,分別為:1)計算候選區域的mse損失、2)計算多分類的交叉熵損失、3)計算二分類的交叉熵損失,將三者損失加權求和,即為最終損失函數。

    12、進一步地,肢體檢測模型的訓練包括:

    13、使用嬰兒全身照數據集,對每張嬰兒圖片標注人體關鍵點位,分別為:[{0,“nose”},{1,“neck”}{2,“rshoulder”},{3,“relbow”},{4,“rwrist”},{5,“lshoulder”},{6,“lelbow”},{7,“lwrist”},{8,“rhip”},{9,“rknee”},{10,“rankle”},{11,“lhip”},{12,“lknee”},{13,“lankle”},{14,“reye”},{15,“leye”},{16,“rear”},{17,“lear”}]得到嬰兒關鍵點數據集;使用嬰兒關鍵點數據集訓練肢體檢測模型;訓練時使用的損失函數為多任務函數,分別為:1)用于訓練關節連接的part?affinity?field?loss、2)用于訓練關節熱力圖的heatmap?loss、3)用于回歸人體框的object?detectionloss;將三者損失加權求和,即為最終損失函數。

    14、進一步地,嬰兒意圖識別模型的訓練包括:

    15、組成[人臉檢測數據,肢體關鍵點數據,嬰兒啼哭音頻數據,標簽]的四元組,該四元組即為訓練數據,其中,標簽為最終嬰兒意圖的標識;使用該訓練數據訓練嬰兒意圖識別模型,其中,人臉檢測模型和肢體檢測模型均已訓練好,訓練嬰兒意圖識別模型時,人臉檢測模型和肢體檢測模型的參數需要被凍結。

    16、進一步地,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;

    17、肢體關鍵點數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;

    18、標簽數據的預處理包括:先進行離散化,再進行獨熱編碼;

    19、嬰兒啼哭音頻數據的預處理包括:將嬰兒啼哭音頻數據切分為若干條數據幀,即可得到第一矩陣,將其命名為frames;對frames矩陣的每一行做fft,即得到第二矩陣,將其命名為pow_frames;最后,將梅爾濾波器運用到pos_frames上,得到第三矩陣,將其命名為mel-spectrogram,即為最終處理完成的音頻數據。

    20、進一步地,所述得到嬰兒啼哭數據對應的頻譜特征向量,包括:

    21、將嬰兒啼哭數據的波形信號轉化為梅爾譜圖,隨后對其疊加attention算子得到頻譜特征向量。

    22、進一步地,還包括搭建嬰兒意圖識別線上服務,具體為:

    23、搭建公網跳板服務器,通過cloudflare托管域名解析服務;

    24、在內網服務器部署嬰兒意圖識別模型推理服務,服務器連接攝像頭,攝像頭實時錄制嬰兒;服務器連接麥克風,實時錄制嬰兒聲音;

    25、內網服務器每n秒輪訓預測一次嬰兒意圖,預測流程為:接收最新的n秒攝像頭捕捉的視頻,以及對應n秒的麥克風捕捉的音頻作為輸入,執行神經網絡的前向傳播,最終經由網絡輸出層給出預測結果,代表嬰兒意圖識別模型對嬰兒意圖的識別結果。

    26、本專利技術還提供了一種多模態輸入的嬰兒意圖識別裝置,包括:

    27、數據獲取模塊,用于獲取含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據;

    28、意圖識別模塊,用于將含有嬰兒全身的視頻數據及對應的嬰兒啼哭數據輸入嬰兒意圖識別模型中,對嬰兒意圖進行識別;

    29、所述嬰兒意圖識別模型包括以下四個模塊:

    30、第一模塊:其輸入為含有嬰兒全身的視頻數據,使用人臉檢測模型檢測出人臉,并對其疊加attention算子輸出人臉特征向量;

    31、第二模塊:其輸入為含有嬰兒全身的視頻數據,使用肢體檢測模型,檢測出肢體動作,并對其疊加attention算子得到肢體動作特征向量;

    32、第三模塊:其輸入為嬰兒啼哭數據,對其進行處理得到嬰兒啼哭數據對應的頻譜特征向量;

    33、第四模塊:其輸入為人臉特征向量、肢體動作特征向量和頻譜特征向量,將三者向量進行拼接后接入全連接層,再使用softmax函數激活,經過softmax函數后的結果即為最終預測結果。

    34、本專利技術還提供了一種多模態輸入的嬰兒意圖識別裝置,包括一個或多個處理器,用于實現上述的一種多模態輸入的嬰兒意圖識別方法。

    35、本專利技術還提供了一種計算機可讀存儲介質,其上存儲有程序,該程序被處理器執行時,用于實現上述的一種多模態輸入的嬰兒意圖識別方法。

    36、與現有技術相比,本專利技術實施例的有益效果是:本專利技術同步采集視頻和音頻信息,同時使用嬰兒面部表情、肢體動作、啼哭聲音作為本文檔來自技高網...

    【技術保護點】

    1.一種多模態輸入的嬰兒意圖識別方法,其特征在于,包括:

    2.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測模型的訓練包括:

    3.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,肢體檢測模型的訓練包括:

    4.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,嬰兒意圖識別模型的訓練包括:

    5.根據權利要求4所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;

    6.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,所述得到嬰兒啼哭數據對應的頻譜特征向量,包括:

    7.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,還包括搭建嬰兒意圖識別線上服務,具體為:

    8.一種多模態輸入的嬰兒意圖識別裝置,其特征在于,包括:

    9.一種多模態輸入的嬰兒意圖識別裝置,其特征在于,包括一個或多個處理器,用于實現權利要求1-7中任一項所述的一種多模態輸入的嬰兒意圖識別方法。

    10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,該程序被處理器執行時,用于實現權利要求1-7中任一項所述的一種多模態輸入的嬰兒意圖識別方法。

    ...

    【技術特征摘要】

    1.一種多模態輸入的嬰兒意圖識別方法,其特征在于,包括:

    2.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測模型的訓練包括:

    3.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,肢體檢測模型的訓練包括:

    4.根據權利要求1所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,嬰兒意圖識別模型的訓練包括:

    5.根據權利要求4所述的一種多模態輸入的嬰兒意圖識別方法,其特征在于,人臉檢測數據中的圖像數據預處理包括:使用翻轉、平移、裁剪、對比度調節數據增強技術,擴展訓練數據的多樣性;

    6.根據權利要求1所述...

    【專利技術屬性】
    技術研發人員:王毅星
    申請(專利權)人:浙江商業職業技術學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 午夜成人无码福利免费视频| 久久久久亚洲精品无码蜜桃| 无码综合天天久久综合网| 精品无码久久久久久尤物| 无码国产精品一区二区免费式芒果| 精品多人p群无码| 免费无码又爽又刺激聊天APP| 精品无码国产自产拍在线观看蜜| 日韩欧精品无码视频无删节 | 亚洲最大av无码网址| 国产又爽又黄无码无遮挡在线观看| 国产午夜无码片免费| 免费无码AV片在线观看软件| 久久中文字幕无码专区| 亚洲人成人无码.www石榴| 久久无码一区二区三区少妇 | 久久久久久国产精品免费无码 | 免费无码不卡视频在线观看| 亚洲AV无码国产精品色午友在线| 久久国产精品成人无码网站| 无码AV波多野结衣久久| 无翼乌工口肉肉无遮挡无码18| 无码乱肉视频免费大全合集| 亚洲AV无码专区电影在线观看| 极品粉嫩嫩模大尺度无码视频| 亚洲午夜无码毛片av久久京东热| 亚洲精品无码av人在线观看| 亚洲高清无码专区视频| 99久无码中文字幕一本久道| 精品国产a∨无码一区二区三区| 日韩欧国产精品一区综合无码| 亚洲精品无码成人片在线观看| 在线看片无码永久免费aⅴ| 亚洲精品无码久久久久APP| 无码人妻精品一区二区三区99仓本| 国产成人无码免费网站| 人妻少妇乱子伦无码专区| 无码人妻AⅤ一区二区三区水密桃 无码欧精品亚洲日韩一区夜夜嗨 无码免费又爽又高潮喷水的视频 无码毛片一区二区三区中文字幕 无码毛片一区二区三区视频免费播放 | 中文字幕久久久人妻无码 | 日韩av无码久久精品免费| 亚洲欧洲日产国码无码久久99|