【技術實現步驟摘要】
語音識別方法、裝置及電子設備
[0001]本申請實施例涉及人工智能
,尤其涉及一種語音識別方法、裝置、及電子設備。
技術介紹
[0002]語音識別是一種讓機器通過識別和理解過程把語音信號轉變為相應的文本的技術,隨著語音識別技術的發展,其被應用于諸如會議場景、智能客服場景、在線醫療場景中等多種場景中。
[0003]對于大部分的語音識別任務,其針對的語音中至少包含有一個說話人的聲音,更多時候包含有多個說話人的聲音。目前的語音識別任務會通過語音識別子任務和說話人日志子任務,這兩個子任務進行系統級聯實現將語音轉換為不同說話人對應的不同文本。其中,這兩個子任務通過對應的兩個單獨的機器學習模型分別實現,并分別進行優化后使用。然而,這種方式因模型間任務信息交互有限,且需要單獨進行相應的優化和處理后,還需級聯使用,導致語音識別效率低下,且準確度也不夠高。
技術實現思路
[0004]有鑒于此,本申請實施例提供一種語音識別方案,以至少部分解決上述問題。
[0005]根據本申請實施例的第一方面,提供了一種語音識別方法,包括:獲取待識別的語音幀數據對應的語音表征向量和說話人表征向量;對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量;根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人。
[0006]根據本申請實施例的第二方面,提供了一種語音識別裝置,包括:包括 ...
【技術保護點】
【技術特征摘要】
1.一種語音識別方法,包括:獲取待識別的語音幀數據對應的語音表征向量和說話人表征向量;對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量;根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人。2.根據權利要求1所述的方法,其中,所述對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量,包括:針對所述語音幀數據包含的多幀語音幀中的每一幀語音幀,對該語音幀對應的語音表征向量進行文本激活值預測;根據該語音幀與在該語音幀之前的至少一個語音幀的文本激活值之和,確定當前文本激活值之和是否達到發射閾值;若達到所述發射閾值,則將在所述發射閾值的范圍內的文本激活值所對應的語音表征向量生成發射向量。3.根據權利要求1或2所述的方法,其中,所述根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人,包括:根據所述發射向量、所述說話人表征向量、所述語音表征向量和預設的說話人聲音特征向量,為所述發射向量確定對應的文本,以及,所述文本中的每個字符對應的說話人。4.根據權利要求3所述的方法,其中,所述根據所述發射向量、所述說話人表征向量、所述語音表征向量和預設的說話人聲音特征向量,為所述發射向量確定對應的文本,以及,所述文本中的每個字符對應的說話人,包括:根據所述發射向量、所述說話人表征向量、和所述語音表征向量進行注意力計算,獲得所述發射向量中對應于每個字符的向量所對應的聲音特征;根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人;根據所述每個字符的向量和所述向量對應的說話人,確定每個字符文本及每個字符文本對應的說話人。5.根據權利要求4所述的方法,其中,在所述根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人之前,所述方法還包括:檢測是否需要對所述每個字符的向量所對應的聲音特征進行修正,若需要,則進行修正;所述根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人,包括:根據預設的說話人聲音特征向量,為修正后的所述每個字符的向量所對應的聲音特征確定對應的說話人。6.根據權利要求1或2所述的方法,其中,所述為所述發射向量確定對應的文本,包括:根據所述發射向量和所述語音表征向量,為所述發射向量確定對應的文本。7.根據權利要求6所述的方法,其中,所述根據所述發射向量和所述語音表征向量,為所述發射向量確定對應的文本,包括:
對所述發射向量和所述語音表征向量進行注意力計算;根據注意力計算結果,為所述發射向量確定對應的文本。8.根據權利要求1所述的方法,其中,所述語音識別方法通過語音識別模型執行;所述語音識別模型包括語音識別分支和說話人識別分支,其中,所述語音識別分支包括:語音識別編碼器、連續整合發射層、和語音識別解碼器;所述說話人識別分支包括:說話人編碼器、和說話人解碼器;所述語音識別編碼器,用于對所述待識別的語音幀數據對應的聲學特征進行語音特征提取,獲得對應的語音表征向量;所述連續整合發射層,用于對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達...
【專利技術屬性】
技術研發人員:杜志浩,張仕良,林宇簫,
申請(專利權)人:阿里巴巴達摩院杭州科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。