The invention provides a method, device, device and computer storage medium for establishing a speech enhancement network. The methods include: acquiring the noise speech spectrum and the clear speech spectrum corresponding to each noise speech spectrum as training samples; constructing a generation antagonism network containing generators and discriminators; and according to the obtained noise speech spectrum and the corresponding clear speech spectrum. The generated countermeasure network is trained by switching the loss function of the generator in N training phases. The generated countermeasure network is trained to obtain a speech enhancement network, in which N is a positive integer greater than or equal to 2. The invention can enhance the stability of training convergence of generating antagonism network, thereby improving the performance of speech enhancement network based on generating antagonism network, and thereby realizing the purpose of improving the accuracy of speech recognition.
【技術實現步驟摘要】
建立語音增強網絡的方法、裝置、設備和計算機存儲介質
本專利技術涉及語音識別技術,尤其涉及一種建立語音增強網絡的方法、裝置、設備和計算機存儲介質。
技術介紹
噪聲環境下的語音識別一直是目前語音識別領域急需解決的難題,目前的主流方法都是在語音識別系統前加一個語音增強網絡。目前為止,生成對抗網絡(GenerativeAdversarialNetwork,GAN)是作為語音增強網絡最新的增強方法。通過研究發現,采用現有的訓練方式訓練生成對抗網絡時,雖然能夠加速生成對抗網絡訓練的收斂,但是會導致生成對抗網絡收斂的不穩定,會讓生成對抗網絡中的生成器生成過于清晰的語音頻譜,導致現有的基于生成對抗網絡的語音增強網絡會損失語音頻譜中某些細微卻重要的信息。
技術實現思路
有鑒于此,本專利技術提供了一種建立語音增強網絡的方法、裝置、設備和計算機存儲介質,用于增強生成對抗網絡訓練收斂的穩定性,從而提升基于生成對抗網絡的語音增強網絡的性能,進而實現提高語音識別準確性的目的。本專利技術為解決技術問題所采用的技術方案是提供一種建立語音增強網絡的方法,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。根據本專利技術一優選實施例,所述生成器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種,所 ...
【技術保護點】
1.一種建立語音增強網絡的方法,其特征在于,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。
【技術特征摘要】
1.一種建立語音增強網絡的方法,其特征在于,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。2.根據權利要求1所述的方法,其特征在于,所述生成器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種,所述判別器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種。3.根據權利要求1所述的方法,其特征在于,所述采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練包括:采用在兩個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,所述兩個訓練階段包括第一訓練階段以及第二訓練階段。4.根據權利要求3所述的方法,其特征在于,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;根據所述生成器的第一損失函數更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數大于預設的迭代次數之后,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果分別得到判別器的損失函數以及生成器的第二損失函數;根據所述判別器的損失函數以及生成器的第二損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。5.根據權利要求3所述的方法,其特征在于,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果得到生成器的第二損失函數;根據所述生成器的第二損失函數,更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在達到預設的迭代次數之后,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;將所述生成器的輸出結果輸入判別器,根據判別器的輸出結果得到判別器的損失函數;根據所述判別器的損失函數以及生成器的第一損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。6.根據權利要求4或5中任一項所述的方法,其特征在于,所述生成器的第一損失函數通過以下公式計算得到:在公式中:LG1表示生成器的第一損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;Pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果。7.根據權利要求4或5中任一項所述的方法,其特征在于,所述生成器的第二損失函數通過以下公式計算得到:在公式中:LG2表示生成器的第二損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果;D(G(x))表示當輸入為生成器的輸出結果時判別器的輸出結果;f(epoch)表示與迭代次數epoch成反比關系的函數。8.根據權利要求1所述的方法,其特征在于,所述方法還包括:將所述語音增強網絡與語音識別系統組合,為所述語音識別系統提供清晰語音頻譜。9.一種建立語音增強網絡的裝置,其特征在于,所述裝置包括:樣本獲取單元,用于獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;網絡構建單元,用于構建包含生成器和判別器的生成對抗網絡;網絡訓練單元,用于根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N...
【專利技術屬性】
技術研發人員:成學軍,
申請(專利權)人:百度在線網絡技術北京有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。