System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码专区永久免费AV网站,AV无码小缝喷白浆在线观看,97在线视频人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音識別方法、裝置、車輛、系統及存儲介質制造方法及圖紙

    技術編號:44486059 閱讀:2 留言:0更新日期:2025-03-04 17:51
    本申請公開了一種語音識別方法、裝置、車輛、系統及存儲介質,所述方法包括:當采集到音頻信息時,采集預設位置的視頻信息;對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;生成包含所述目標音頻幀的有效音頻;對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。采用本申請所提供的方案:通過將音頻信息與視頻信息結合,僅保留了人物口部張開時的音頻,排除了其他聲源發出語音的干擾,提高了語音識別的精確度。

    【技術實現步驟摘要】

    本申請涉及語音識別,特別涉及一種語音識別方法、裝置、車輛、系統及存儲介質。


    技術介紹

    1、現有語音活動是通過檢測音頻模態信息來判斷是否有人說話。但是,當存在其他語音干擾時,例如,當座艙內有電子設備播放視頻時,其中視頻中人物的聲音則很容易被標記為語音。因此,現有技術中,無法排除其他聲源的干擾,無法精確判斷是否有真實的交互意圖。


    技術實現思路

    1、本申請提供一種語音識別方法、裝置、車輛、系統及存儲介質,用以排除其他聲源的干擾,提高語音識別的精確度。

    2、本申請提供一種語音識別方法,包括:

    3、當采集到音頻信息時,采集預設位置的視頻信息;

    4、對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;

    5、確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    6、生成包含所述目標音頻幀的有效音頻;

    7、對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。

    8、本申請的有益效果在于:當采集到音頻信息時,采集預設位置的視頻信息,對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,再確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,生成包含所述目標音頻幀的有效音頻,再對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果,對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。本方案通過將音頻信息與視頻信息結合,進而僅保留了人物口部張開時的音頻,排除了其他聲源發出語音的干擾,提高了語音識別的精確度。

    9、在一個實施例中,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    10、提取所述視頻信息中的視頻幀;

    11、判斷所述視頻幀中是否出現人臉;

    12、當所述視頻幀中出現人臉時,確定所述人臉中的口部區域;

    13、將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對;

    14、當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時,確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

    15、在一個實施例中,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    16、將所述視頻信息輸入訓練完成的開口判斷模型中;

    17、獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果;

    18、根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

    19、在一個實施例中,所述訓練完成的開口判斷模型的創建方法包括:

    20、構建開口判斷模型;

    21、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練,以得到訓練后的開口判斷模型;

    22、將第二音頻幀、與所述第二音頻幀對應的第二視頻幀作為測試集輸入至訓練后的開口判斷模型;

    23、獲取所述訓練后的開口判斷模型輸出的所述測試集對應的開閉口識別結果;

    24、將所述測試集對應的開閉口識別結果與所述測試集對應的開閉口標簽進行比對;

    25、當比對結果表征所述開閉口識別結果與所述測試集對應的開閉口標簽的匹配度大于預設匹配度時,確定所述開口判斷模型訓練完成。

    26、在一個實施例中,所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,包括:

    27、當所述視頻信息中出現人物口部張開的視頻幀時,將音頻狀態設置為語音態,并將語音態持續過程中采集的音頻幀作為與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    28、在語音態持續過程中,當所述視頻信息中出現由開口狀態切換為閉口狀態的情況時,確定閉口狀態的持續時長;

    29、當閉口狀態的持續時長大于預設時長時,由所述語音態切換為靜音態,并將閉口狀態之后采集的音頻信息執行刪除操作。

    30、在一個實施例中,所述生成包含所述目標音頻幀的有效音頻,包括:

    31、將同一次語音態下的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

    32、在一個實施例中,所述生成包含所述目標音頻幀的有效音頻,包括:

    33、確定相鄰目標音頻幀之間的幀間隔;

    34、確定所述幀間隔小于預設間隔的目標音頻幀為同一組目標音頻幀;

    35、將所述同一組的目標音頻幀以及同一組目標音頻幀之間的所有音頻幀組合為有效音頻。

    36、在一個實施例中,所述方法還包括:

    37、確定幀間隔大于所述預設間隔的目標音頻幀為不同組的目標音頻幀;

    38、對所述不同組目標音頻幀之間的音頻幀執行刪除操作。

    39、本申請還提供一種語音識別裝置,包括:

    40、采集模塊,用于當采集到音頻信息時,采集預設位置的視頻信息;

    41、第一識別模塊,用于對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀;

    42、確定模塊,用于確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀;

    43、生成模塊,用于生成包含所述目標音頻幀的有效音頻;

    44、第二識別模塊,用于對所述有效音頻進行語音識別,以得到與所述有效音頻對應的識別結果。

    45、在一個實施例中,所述第一識別模塊,包括:

    46、提取子模塊,用于提取所述視頻信息中的視頻幀;

    47、判斷子模塊,用于判斷所述視頻幀中是否出現人臉;

    48、第一確定子模塊,用于當所述視頻幀中出現人臉時,確定所述人臉中的口部區域;

    49、比對子模塊,用于將所述人臉中的口部區域與預存儲的閉口狀態的視頻幀口部區域進行比對;

    50、第二確定子模塊,用于當所述人臉中的口部區域與所述預存儲的閉口狀態的視頻幀口部區域之間的差異度高于預設差異度時,確定所述視頻幀為所述視頻信息中出現的人物口部張開的視頻幀。

    51、在一個實施例中,所述第一識別模塊,包括:

    52、輸入子模塊,用于將所述視頻信息輸入訓練完成的開口判斷模型中;

    53、獲取子模塊,用于獲取所述訓練完成的開口判斷模型輸出的所述視頻信息中各個視頻幀是否出現人物口部張開的判斷結果;

    54、第三確定子模塊,用于根據所述判斷結果確定所述視頻信息中出現的人物口部張開的視頻幀。

    55、在一個實施例中,所述訓練完成的開口判斷模型的創建方法包括:

    56、構建開口判斷模型;

    57、將第一音頻幀、與所述第一音頻幀對應的第一視頻幀以及所述第一音頻幀和第一視頻幀對應的開閉口標簽作為訓練集對所述開口判斷模型進行訓練,以得到訓練后本文檔來自技高網...

    【技術保護點】

    1.一種語音識別方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    3.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    4.如權利要求3所述的方法,其特征在于,訓練完成的開口判斷模型的創建方法包括:

    5.如權利要求1所述的方法,其特征在于,所述確定與所述出現的人物口部張開的視頻幀對應的目標音頻幀,包括:

    6.如權利要求1所述的方法,其特征在于,所述生成包含所述目標音頻幀的有效音頻,包括:

    7.如權利要求6所述的方法,其特征在于,所述方法包括:

    8.一種語音識別裝置,其特征在于,包括:

    9.一種語音識別系統,其特征在于,包括:

    10.一種計算機可讀存儲介質,其特征在于,當存儲介質中的指令由語音識別系統對應的處理器執行時,使得語音識別系統能夠實現如權利要求1-7任一項所述的語音識別方法。

    11.一種車輛,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種語音識別方法,其特征在于,包括:

    2.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    3.如權利要求1所述的方法,其特征在于,所述對采集的視頻信息進行識別,以確定所述視頻信息中出現的人物口部張開的視頻幀,包括:

    4.如權利要求3所述的方法,其特征在于,訓練完成的開口判斷模型的創建方法包括:

    5.如權利要求1所述的方法,其特征在于,所述確定與所述出現的人物口部張開的視頻幀對應的目標...

    【專利技術屬性】
    技術研發人員:張皓博,
    申請(專利權)人:北京羅克維爾斯科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久午夜伦鲁片免费无码| 青春草无码精品视频在线观| 精品久久久久久无码中文字幕一区| 亚洲国产精品无码久久九九大片| 人妻丰满熟妇AV无码区免| 在线观看免费无码视频| 久久午夜伦鲁片免费无码| 精品无码久久久久久久动漫 | 亚洲精品无码高潮喷水在线| 久久久久久亚洲Av无码精品专口| 无码h黄肉3d动漫在线观看| 精品无码一区二区三区爱欲| 无码专区一va亚洲v专区在线 | 久久亚洲AV无码精品色午夜| 亚洲高清无码在线观看| 九九在线中文字幕无码| 久久无码人妻一区二区三区| 亚洲情XO亚洲色XO无码| 一本一道中文字幕无码东京热 | yy111111电影院少妇影院无码| 精品国产aⅴ无码一区二区| 国产网红无码精品视频| 国产av无码专区亚洲av果冻传媒 | 人妻无码一区二区三区四区| 日本无码WWW在线视频观看| 国产av无码专区亚洲av桃花庵| 国产高清无码视频| 午夜精品久久久久久久无码| 粉嫩大学生无套内射无码卡视频| 中文字幕丰满乱孑伦无码专区| 国产裸模视频免费区无码| 韩国精品一区二区三区无码视频| 亚洲熟妇无码AV| 亚洲a∨无码精品色午夜| 亚洲AV无码成人网站在线观看| 亚洲av纯肉无码精品动漫| 麻豆亚洲AV成人无码久久精品 | 色窝窝无码一区二区三区色欲 | 国产成人无码区免费网站| 精品无码国产自产拍在线观看蜜| H无码精品3D动漫在线观看|