• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    建立語音增強網絡的方法、裝置、設備和計算機存儲介質制造方法及圖紙

    技術編號:20007114 閱讀:34 留言:0更新日期:2019-01-05 18:41
    本發明專利技術提供了一種建立語音增強網絡的方法、裝置、設備和計算機存儲介質,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。本發明專利技術能夠增強生成對抗網絡訓練收斂的穩定性,從而提升基于生成對抗網絡的語音增強網絡的性能,進而實現提高語音識別準確性的目的。

    Method, Device, Equipment and Computer Storage Medium for Establishing Speech Enhancement Network

    The invention provides a method, device, device and computer storage medium for establishing a speech enhancement network. The methods include: acquiring the noise speech spectrum and the clear speech spectrum corresponding to each noise speech spectrum as training samples; constructing a generation antagonism network containing generators and discriminators; and according to the obtained noise speech spectrum and the corresponding clear speech spectrum. The generated countermeasure network is trained by switching the loss function of the generator in N training phases. The generated countermeasure network is trained to obtain a speech enhancement network, in which N is a positive integer greater than or equal to 2. The invention can enhance the stability of training convergence of generating antagonism network, thereby improving the performance of speech enhancement network based on generating antagonism network, and thereby realizing the purpose of improving the accuracy of speech recognition.

    【技術實現步驟摘要】
    建立語音增強網絡的方法、裝置、設備和計算機存儲介質
    本專利技術涉及語音識別技術,尤其涉及一種建立語音增強網絡的方法、裝置、設備和計算機存儲介質。
    技術介紹
    噪聲環境下的語音識別一直是目前語音識別領域急需解決的難題,目前的主流方法都是在語音識別系統前加一個語音增強網絡。目前為止,生成對抗網絡(GenerativeAdversarialNetwork,GAN)是作為語音增強網絡最新的增強方法。通過研究發現,采用現有的訓練方式訓練生成對抗網絡時,雖然能夠加速生成對抗網絡訓練的收斂,但是會導致生成對抗網絡收斂的不穩定,會讓生成對抗網絡中的生成器生成過于清晰的語音頻譜,導致現有的基于生成對抗網絡的語音增強網絡會損失語音頻譜中某些細微卻重要的信息。
    技術實現思路
    有鑒于此,本專利技術提供了一種建立語音增強網絡的方法、裝置、設備和計算機存儲介質,用于增強生成對抗網絡訓練收斂的穩定性,從而提升基于生成對抗網絡的語音增強網絡的性能,進而實現提高語音識別準確性的目的。本專利技術為解決技術問題所采用的技術方案是提供一種建立語音增強網絡的方法,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。根據本專利技術一優選實施例,所述生成器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種,所述判別器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種。根據本專利技術一優選實施例,所述采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練包括:采用在兩個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,所述兩個訓練階段包括第一訓練階段以及第二訓練階段。根據本專利技術一優選實施例,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;根據所述生成器的第一損失函數更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數大于預設的迭代次數之后,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果分別得到判別器的損失函數以及生成器的第二損失函數;根據所述判別器的損失函數以及生成器的第二損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。根據本專利技術一優選實施例,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果得到生成器的第二損失函數;根據所述生成器的第二損失函數,更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在達到預設的迭代次數之后,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;將所述生成器的輸出結果輸入判別器,根據判別器的輸出結果得到判別器的損失函數;根據所述判別器的損失函數以及生成器的第一損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。根據本專利技術一優選實施例,所述生成器的第一損失函數通過以下公式計算得到:在公式中:LG1表示生成器的第一損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;Pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果。根據本專利技術一優選實施例,所述生成器的第二損失函數通過以下公式計算得到:在公式中:LG2表示生成器的第二損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果;D(G(x))表示當輸入為生成器的輸出結果時判別器的輸出結果;f(epoch)表示與迭代次數epoch成反比關系的函數。根據本專利技術一優選實施例,所述方法還包括:將所述語音增強網絡與語音識別系統組合,為所述語音識別系統提供清晰語音頻譜。本專利技術未解決技術問題所采用的技術方案是提供一種建立語音增強網絡的裝置,所述裝置包括:樣本獲取單元,用于獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;網絡構建單元,用于構建包含生成器和判別器的生成對抗網絡;網絡訓練單元,用于根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。根據本專利技術一優選實施例,所述生成器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種,所述判別器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種。根據本專利技術一優選實施例,所述網絡訓練單元采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練時,具體執行:采用在兩個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,所述兩個訓練階段包括第一訓練階段以及第二訓練階段。根據本專利技術一優選實施例,所述網絡訓練單元在所述第一訓練階段對所述生成對抗網絡進行訓練時,具體執行:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;根據所述生成器的第一損失函數更新生成器的網絡結構中的參數;所述網絡訓練單元在所述第二訓練階段對所述生成對抗網絡進行訓練時,具體執行:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數大于預設的迭代次數之后,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果分別得到判別器的損失函數以及生成器的第二損失函數;根據所述判別器的損失函數以及生成器的第二損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。根據本專利技術一優選實施例,所述網絡訓練單元在所述第一訓練階段對所述生成對抗網絡進行訓練時,具體執行:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果得到生成器的第二損失函數;根據所述生成器的第二損失函數,更新生成器的網絡結構中的參數;所述網絡訓練單元在所述第二訓練階段對所述生成對抗網絡進行訓練時,具體執行:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在達到預設的迭代次數之后,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;將所述生成器的輸出結果輸入判別器,根據判別器的輸出結本文檔來自技高網...

    【技術保護點】
    1.一種建立語音增強網絡的方法,其特征在于,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。

    【技術特征摘要】
    1.一種建立語音增強網絡的方法,其特征在于,所述方法包括:獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;構建包含生成器和判別器的生成對抗網絡;根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,利用訓練得到的所述生成對抗網絡中的生成器得到語音增強網絡,其中N為大于等于2的正整數。2.根據權利要求1所述的方法,其特征在于,所述生成器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種,所述判別器的網絡結構可以為深度神經網絡、循環神經網絡或者長短時記憶網絡中的一種。3.根據權利要求1所述的方法,其特征在于,所述采用在N個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練包括:采用在兩個訓練階段中切換生成器的損失函數的方式對所述生成對抗網絡進行訓練,所述兩個訓練階段包括第一訓練階段以及第二訓練階段。4.根據權利要求3所述的方法,其特征在于,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;根據所述生成器的第一損失函數更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數大于預設的迭代次數之后,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果分別得到判別器的損失函數以及生成器的第二損失函數;根據所述判別器的損失函數以及生成器的第二損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。5.根據權利要求3所述的方法,其特征在于,在所述第一訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在迭代次數小于等于預設的迭代次數時,將生成器的輸出結果及其對應的清晰語音頻譜輸入判別器,根據判別器的輸出結果得到生成器的第二損失函數;根據所述生成器的第二損失函數,更新生成器的網絡結構中的參數;在所述第二訓練階段對所述生成對抗網絡進行訓練包括:將帶噪語音頻譜輸入生成器,得到生成器的輸出結果;在達到預設的迭代次數之后,根據生成器的輸出結果及其對應的清晰語音頻譜,得到生成器的第一損失函數;將所述生成器的輸出結果輸入判別器,根據判別器的輸出結果得到判別器的損失函數;根據所述判別器的損失函數以及生成器的第一損失函數,分別更新判別器以及生成器的網絡結構中的參數,直至生成對抗網絡收斂。6.根據權利要求4或5中任一項所述的方法,其特征在于,所述生成器的第一損失函數通過以下公式計算得到:在公式中:LG1表示生成器的第一損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;Pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果。7.根據權利要求4或5中任一項所述的方法,其特征在于,所述生成器的第二損失函數通過以下公式計算得到:在公式中:LG2表示生成器的第二損失函數;x表示帶噪語音頻譜;y表示與帶噪語音頻譜對應的清晰語音頻譜;pdata表示訓練樣本;E表示從訓練樣本中取樣;G(x)表示輸入為帶噪語音頻譜時生成器的輸出結果;D(G(x))表示當輸入為生成器的輸出結果時判別器的輸出結果;f(epoch)表示與迭代次數epoch成反比關系的函數。8.根據權利要求1所述的方法,其特征在于,所述方法還包括:將所述語音增強網絡與語音識別系統組合,為所述語音識別系統提供清晰語音頻譜。9.一種建立語音增強網絡的裝置,其特征在于,所述裝置包括:樣本獲取單元,用于獲取帶噪語音頻譜以及與各帶噪語音頻譜對應的清晰語音頻譜作為訓練樣本;網絡構建單元,用于構建包含生成器和判別器的生成對抗網絡;網絡訓練單元,用于根據獲取的帶噪語音頻譜及其對應的清晰語音頻譜,采用在N...

    【專利技術屬性】
    技術研發人員:成學軍
    申請(專利權)人:百度在線網絡技術北京有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码中文字幕日韩专区视频| 国产丰满乱子伦无码专| 亚洲一区AV无码少妇电影| 日木av无码专区亚洲av毛片| 国产成人无码精品久久久露脸 | 人妻丰满熟妇av无码区不卡| 亚洲午夜无码久久久久小说| 色欲aⅴ亚洲情无码AV| 日韩精品专区AV无码| 国产精品亚洲αv天堂无码| 国产午夜鲁丝无码拍拍| 无遮掩无码h成人av动漫| 久久久久无码国产精品一区| 无码无需播放器在线观看| 国产成人A亚洲精V品无码 | 人妻无码中文久久久久专区| 成人无码嫩草影院| av无码久久久久不卡免费网站 | 中文字幕无码乱码人妻系列蜜桃| 精品久久久久久无码人妻热| 亚洲日韩AV无码一区二区三区人| 国产AV无码专区亚洲AWWW| 国产成人无码aa精品一区 | 亚洲AV无码一区二区三区在线观看| 亚洲综合无码一区二区三区| 亚洲欧洲精品无码AV| 日韩乱码人妻无码中文视频| 亚洲中文字幕久久精品无码A| 国产成人无码综合亚洲日韩| 中文无码伦av中文字幕| 久久久精品无码专区不卡| 国产精品无码久久四虎| 亚洲国产精品无码第一区二区三区| 无码丰满少妇2在线观看| 无码中文字幕乱在线观看| 无码乱人伦一区二区亚洲一| 亚洲国产精品无码专区| 亚洲精品无码成人AAA片| 一本加勒比HEZYO无码人妻| 国产羞羞的视频在线观看 国产一级无码视频在线 | 亚洲熟妇无码AV|