• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語音識別方法、裝置及電子設備制造方法及圖紙

    技術編號:36696004 閱讀:27 留言:0更新日期:2023-02-27 20:08
    本申請實施例提供了一種語音識別方法、裝置及電子設備,其中,語音識別方法包括:獲取待識別的語音幀數據對應的語音表征向量和說話人表征向量;對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量;根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人。通過本申請實施例,提高了語音識別和說話人標記的準確度。人標記的準確度。人標記的準確度。

    【技術實現步驟摘要】
    語音識別方法、裝置及電子設備


    [0001]本申請實施例涉及人工智能
    ,尤其涉及一種語音識別方法、裝置、及電子設備。

    技術介紹

    [0002]語音識別是一種讓機器通過識別和理解過程把語音信號轉變為相應的文本的技術,隨著語音識別技術的發展,其被應用于諸如會議場景、智能客服場景、在線醫療場景中等多種場景中。
    [0003]對于大部分的語音識別任務,其針對的語音中至少包含有一個說話人的聲音,更多時候包含有多個說話人的聲音。目前的語音識別任務會通過語音識別子任務和說話人日志子任務,這兩個子任務進行系統級聯實現將語音轉換為不同說話人對應的不同文本。其中,這兩個子任務通過對應的兩個單獨的機器學習模型分別實現,并分別進行優化后使用。然而,這種方式因模型間任務信息交互有限,且需要單獨進行相應的優化和處理后,還需級聯使用,導致語音識別效率低下,且準確度也不夠高。

    技術實現思路

    [0004]有鑒于此,本申請實施例提供一種語音識別方案,以至少部分解決上述問題。
    [0005]根據本申請實施例的第一方面,提供了一種語音識別方法,包括:獲取待識別的語音幀數據對應的語音表征向量和說話人表征向量;對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量;根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人。
    [0006]根據本申請實施例的第二方面,提供了一種語音識別裝置,包括:包括語音識別分支單元和說話人識別分支單元,其中,所述語音識別分支單元包括:語音識別編碼器、連續整合發射模塊、和語音識別解碼器;所述說話人識別分支單元包括:說話人編碼器、和說話人解碼器;所述語音識別編碼器,用于對待識別的語音幀數據對應的聲學特征進行語音特征提取,獲得對應的語音表征向量;所述連續整合發射模塊,用于對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量并將所述發射向量發射至所述說話人解碼器;所述說話人編碼器,用于對所述待識別的語音幀數據對應的聲學特征進行說話人特征提取,獲得對應的說話人表征向量;所述說話人解碼器,用于接收所述發射向量,并根據所述發射向量和所述說話人表征向量,確定所述發射向量對應的說話人;所述語音識別解碼器,用于將所述發射向量轉換為文本,并根據所述發射向量對應的說話人的信息,確定所述文本對應的說話人。
    [0007]根據本申請實施例的第三方面,提供了一種電子設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間
    的通信;所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行如第一方面所述方法對應的操作。
    [0008]根據本申請實施例的第四方面,提供了一種計算機存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面所述的方法。
    [0009]根據本申請實施例提供的方案,在需要進行語音識別并標記相應說話人的場景中,一方面,會基于語音識別任務的語音表征向量生成發射向量,并與說話人識別任務的說話人表征向量相結合,從而,實現了兩者在特征生成階段的任務信息交互,以使得在對語音進行說話人識別時,即有效融合了語音特征和說話人特征,從而提高了語音識別和說話人標記的準確度。另一方面,本申請實施例的方案中,對語音幀文本激活值的預測是并行的,也即,可以同時對多個語音幀的語音表征向量進行預測,并在達到發射閾值時生成發射向量,相較于傳統方式中在處理每個語音幀時均需對該語音幀對應的字符的上下文語音幀進行處理的方式,可以大大提高處理速度和效率。可見,通過本申請實施例,既降低了語音識別任務和說話人識別任務之間的交互復雜度,又提高了整體識別效率。
    附圖說明
    [0010]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請實施例中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
    [0011]圖1為適用本申請實施例方案的示例性系統的示意圖;圖2A為根據本申請實施例一的一種語音識別裝置的結構框圖;圖2B為圖2A所示實施例中的一種語音識別裝置對應的模型的結構示意圖;圖3A為根據本申請實施例二的一種語音識別方法的步驟流程圖;圖3B為圖3A所示實施例中的一種場景示例圖;圖4為根據本申請實施例三的一種電子設備的結構示意圖。
    具體實施方式
    [0012]為了使本領域的人員更好地理解本申請實施例中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本申請實施例一部分實施例,而不是全部的實施例。基于本申請實施例中的實施例,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本申請實施例保護的范圍。
    [0013]下面結合本申請實施例附圖進一步說明本申請實施例具體實現。
    [0014]圖1示出了一種適用本申請實施例的示例性系統。如圖1所示,該系統100可以包括云服務端102、通信網絡104和/或一個或多個用戶設備106,圖1中示例為多個用戶設備。
    [0015]云服務端102可以是用于存儲信息、數據、程序和/或任何其他合適類型的內容的任何適當的設備,包括但不限于分布式存儲系統設備、服務器集群、計算云服務端集群等。在一些實施例中,云服務端102可以執行任何適當的功能。例如,在一些實施例中,云服務端102可以用于語音識別并標記說話人。作為可選的示例,在一些實施例中,云服務端102可以被用于基于語音識別任務和說話人識別任務之間的交互,來進行語音識別并標記說話人。
    在一些實施例中,云服務端102可以通過對待識別的語音幀數據對應的語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在發射閾值的范圍內的語音表征向量生成發射向量;進而通過該發射向量和待識別的語音幀數據對應的說話人表征向量,實現語音識別任務和說話人識別任務之間的交互,最終為發射向量確定對應的文本及文本對應的說話人。作為另一示例,在一些實施例中,云服務端102可以被用于通過用戶設備106獲取待識別的語音幀數據,并且,在通過上述過程獲得發射向量對應的文本及文本對應的說話人后,發送給用戶設備106。
    [0016]在一些實施例中,通信網絡104可以是一個或多個有線和/或無線網絡的任何適當的組合。例如,通信網絡104能夠包括以下各項中的任何一種或多種:互聯網、內聯網、廣域網(Wide Area Network,WAN)、局域網(Local Area Network ,LAN)、無線網絡、數字訂戶線路(Digital Subscriber Line,DSL)網絡、幀中繼網絡、異步轉移模式(Asynchronous Transfe本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種語音識別方法,包括:獲取待識別的語音幀數據對應的語音表征向量和說話人表征向量;對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量;根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人。2.根據權利要求1所述的方法,其中,所述對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達到發射閾值時,根據在所述發射閾值的范圍內的語音表征向量生成發射向量,包括:針對所述語音幀數據包含的多幀語音幀中的每一幀語音幀,對該語音幀對應的語音表征向量進行文本激活值預測;根據該語音幀與在該語音幀之前的至少一個語音幀的文本激活值之和,確定當前文本激活值之和是否達到發射閾值;若達到所述發射閾值,則將在所述發射閾值的范圍內的文本激活值所對應的語音表征向量生成發射向量。3.根據權利要求1或2所述的方法,其中,所述根據所述發射向量和所述說話人表征向量,為所述發射向量確定對應的文本及所述文本對應的說話人,包括:根據所述發射向量、所述說話人表征向量、所述語音表征向量和預設的說話人聲音特征向量,為所述發射向量確定對應的文本,以及,所述文本中的每個字符對應的說話人。4.根據權利要求3所述的方法,其中,所述根據所述發射向量、所述說話人表征向量、所述語音表征向量和預設的說話人聲音特征向量,為所述發射向量確定對應的文本,以及,所述文本中的每個字符對應的說話人,包括:根據所述發射向量、所述說話人表征向量、和所述語音表征向量進行注意力計算,獲得所述發射向量中對應于每個字符的向量所對應的聲音特征;根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人;根據所述每個字符的向量和所述向量對應的說話人,確定每個字符文本及每個字符文本對應的說話人。5.根據權利要求4所述的方法,其中,在所述根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人之前,所述方法還包括:檢測是否需要對所述每個字符的向量所對應的聲音特征進行修正,若需要,則進行修正;所述根據預設的說話人聲音特征向量,為所述每個字符的向量所對應的聲音特征確定對應的說話人,包括:根據預設的說話人聲音特征向量,為修正后的所述每個字符的向量所對應的聲音特征確定對應的說話人。6.根據權利要求1或2所述的方法,其中,所述為所述發射向量確定對應的文本,包括:根據所述發射向量和所述語音表征向量,為所述發射向量確定對應的文本。7.根據權利要求6所述的方法,其中,所述根據所述發射向量和所述語音表征向量,為所述發射向量確定對應的文本,包括:
    對所述發射向量和所述語音表征向量進行注意力計算;根據注意力計算結果,為所述發射向量確定對應的文本。8.根據權利要求1所述的方法,其中,所述語音識別方法通過語音識別模型執行;所述語音識別模型包括語音識別分支和說話人識別分支,其中,所述語音識別分支包括:語音識別編碼器、連續整合發射層、和語音識別解碼器;所述說話人識別分支包括:說話人編碼器、和說話人解碼器;所述語音識別編碼器,用于對所述待識別的語音幀數據對應的聲學特征進行語音特征提取,獲得對應的語音表征向量;所述連續整合發射層,用于對所述語音表征向量進行并行的語音幀文本激活值預測,并在預測結果指示語音幀文本激活值達...

    【專利技術屬性】
    技術研發人員:杜志浩張仕良林宇簫
    申請(專利權)人:阿里巴巴達摩院杭州科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品人妻系列无码天堂| 无码被窝影院午夜看片爽爽jk| 日韩人妻无码精品久久免费一 | 中文无码久久精品| 午夜亚洲AV日韩AV无码大全| 亚洲精品无码久久久久YW| 亚洲高清无码专区视频| 免费无遮挡无码永久视频| 国产精品无码一区二区在线观一 | 亚洲成A∨人片在线观看无码| 国产成人无码网站| 亚洲色无码专区在线观看| 国产精品白浆无码流出| 精品一区二区三区无码免费视频| 精品人妻少妇嫩草AV无码专区| 久久久无码精品亚洲日韩按摩| 无码欧精品亚洲日韩一区夜夜嗨| 人妻少妇偷人精品无码| 一本一道av中文字幕无码| 18禁超污无遮挡无码免费网站国产| 久久久久无码国产精品一区| 国产精品毛片无码| 精品久久久无码中文字幕边打电话| 青青草无码免费一二三区| 亚洲av无码片在线播放| 国产无码一区二区在线| 色欲AV无码一区二区三区| 无码精品国产va在线观看dvd| 人妻丰满熟妇AV无码区乱| 国产AV无码专区亚洲Av| 亚洲成AV人片在线播放无码| 国产丰满乱子伦无码专区| 国产成人午夜无码电影在线观看| 免费VA在线观看无码| 免费人妻无码不卡中文字幕18禁| 日韩精品人妻系列无码av东京 | 日韩av无码久久精品免费| 99精品国产在热久久无码| 久久久无码一区二区三区| 高清无码v视频日本www| 免费无码又爽又刺激聊天APP|