本申請涉及一種基于持續學習模型的語音喚醒方法、裝置及存儲介質。所述方法包括:基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將教師模型和學生模型組裝為持續學習模型;獲取語音樣本數據;將語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練;采用訓練好的持續學習模型對目標語音進行喚醒。本申請能提升預測精準性和喚醒效率。特別是在模型訓練過程中,教師模型與學生模型融合的訓練方式,結合蒸餾損失、特征圖損失與交叉熵損失,使持續學習模型得以優化,使學生模型負責學習新知識,教師模型負責引導學生模型不過度學習新知識,通過減小舊知識與新知識之間分布差異,實現了新知識的學習以及舊知識的保留。實現了新知識的學習以及舊知識的保留。實現了新知識的學習以及舊知識的保留。
【技術實現步驟摘要】
一種基于持續學習模型的語音喚醒方法、裝置及存儲介質
[0001]本申請涉及深度學習及語音喚醒
,更為具體來說,本申請涉及一種基于持續學習模型的語音喚醒方法、裝置及存儲介質。
技術介紹
[0002]隨著人機交互概念的興起,語音喚醒技術的應用越來越廣泛。作為語音交互產品的第一步,影響人機交互體驗,是目前企業的研究熱點之一。例如,企業為產品設定喚醒詞后,產品根據用戶說出的關鍵詞來判斷是否進入問答服務。
[0003]隨著深度學習的興起,越來越多的企業開始在產品中部署端到端的深度學習語音喚醒模型,現有技術中存在兩種模型的學習方法。第一類是將特殊環境中的喚醒詞與非喚醒詞語音數據加入到原始語音數據中進行重新訓練,這種方法的優點是模型整體精度高,但是每次重新訓練所需時間較長,且所有訓練數據需完整保存,存儲資源消耗大。第二類是使用現有模型對特殊環境中的喚醒詞與非喚醒詞進行微調,這種方法的優點是訓練時間短,且無需使用原始語音數據。然而,語音模型的微調容易造成知識遺忘災難,即模型過度學習新知識而遺忘了舊知識,因此微調模型在新數據上學習精度高,但是在原始數據中學習的精度會大幅下降。
技術實現思路
[0004]基于上述技術問題,本專利技術旨在基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型構建持續學習模型,以提升模型的持續學習能力,進而在利用訓練好的持續學習模型進行語音喚醒的相關應用時能提升預測精準性和喚醒效率。
[0005]本專利技術第一方面提供了一種基于持續學習模型的語音喚醒方法,所述方法包括:
[0006]基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型;
[0007]獲取語音樣本數據;
[0008]將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練;
[0009]采用訓練好的持續學習模型對目標語音進行喚醒。
[0010]在本專利技術的一些實施例中,基于輕量級深度殘差卷積網絡構建的教師模型和學生模型均依次序配置有1層第一全連接層、5層殘差卷積層、2層第二全連接層,1層特征圖層和1層概率層,各層依所述次序堆疊排放。
[0011]在本專利技術的一些實施例中,每層所述殘差卷積層均由兩層前饋網絡和介于兩層前饋網絡中間的門控因果擴展卷積構成,所述兩層前饋網絡和所述門控因果擴展卷積通過殘差連接的方式連接。
[0012]在本專利技術的一些實施例中,所述語音樣本數據包括代表過去知識的第一語音數據和代表新知識的第二語音數據,將所述語音樣本數據作為訓練樣本輸入所述持續學習模型
中進行訓練,包括:將所述第一語音數據輸入所述教師模型進行預訓練;將所述第二語音數據同時輸入所述學生模型和完成預訓練的所述教師模型,且將所述學生模型和完成預訓練的所述教師模型均加載預設權重,以使完成預訓練的教師模型和學生模型獲得相同的過去知識;在訓練過程中,凍結完成預訓練的所述教師模型的權重,以使完成預訓練的教師模型的參數不進行更新,且對學生模型進行梯度下降學習;通過完成預訓練的教師模型對所述第二語音數據進行預測,并基于預測結果指導學生模型,以使學生模型在過去知識的基礎上對新知識進行學習。
[0013]在本專利技術的一些實施例中,所述持續學習模型的訓練方法還包括:
[0014]在訓練過程中,基于特征圖損失函數、知識蒸餾損失函數及交叉熵損失函數的加權和作為整體損失函數;
[0015]采用所述整體損失函數對所述持續學習模型進行優化;
[0016]當優化后的持續學習模型計算出的所述整體損失函數值收斂時,停止訓練。
[0017]在本專利技術的一些實施例中,在所述采用訓練好的持續學習模型對目標語音進行喚醒之前,還包括:
[0018]將所述目標語音轉換為原始語音特征;
[0019]將所述原始語音特征輸入所述訓練好的持續學習模型。
[0020]在本專利技術的一些實施例中,將所述目標語音轉換為原始語音特征,包括:
[0021]將所述目標語音依次進行預加重、分幀、加窗、離散傅里葉變換;
[0022]將離散傅里葉變換后得到的結果基于梅爾頻率倒譜系數進行提取語音特征,得到所述原始語音特征。
[0023]在本專利技術的一些實施例中,在將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練之前,還包括:對所述語音樣本數據進行語音增強變換操作,其中,所述語音增強變換操作至少包括語調變換、音量變換、淡入淡出變換、語速變換、首尾靜音切割變換、帶通濾波變換和帶阻濾波變換。
[0024]本專利技術第二方面提供了一種基于持續學習模型的語音喚醒裝置,所述裝置包括:
[0025]構建模塊,用于基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型;
[0026]獲取模塊,用于獲取語音樣本數據;
[0027]訓練模塊,用于將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練;
[0028]喚醒模塊,用于采用訓練好的持續學習模型對目標語音進行喚醒。
[0029]本專利技術第三方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現以下步驟:
[0030]基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型;
[0031]獲取語音樣本數據;
[0032]將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練;
[0033]采用訓練好的持續學習模型對目標語音進行喚醒。
[0034]本申請實施例中提供的技術方案,至少具有如下技術效果或優點:
[0035]本申請先基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型,獲取語音樣本數據,將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練,能提升模型的持續學習能力,采用訓練好的持續學習模型對目標語音進行喚醒,能提升預測精準性和喚醒效率。特別地,在訓練過程中,因為引入特征圖損失函數,使模型更加優化,在知識蒸餾損失函數和交叉熵損失函數基礎上引入特征圖損失函數,將特征圖損失函數、知識蒸餾損失函數及交叉熵損失函數的加權和作為整體損失函數以對模型進行不斷優化,使模型實現了持續學習,且訓練時無需保存原始數據,減少了數據存儲消耗,大大提升了訓練速度。不僅如此,學生模型負責學習新知識,教師模型負責引導學生模型不過度學習新知識,通過減小舊知識與新知識之間分布差異,實現了新知識的學習以及舊知識的保留,從而提升了語音喚醒的應用效率。
[0036]應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本專利技術。
附圖說明
[0037]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于持續學習模型的語音喚醒方法,其特征在于,所述方法包括:基于輕量級深度殘差卷積網絡構建教師模型和學生模型,并將所述教師模型和所述學生模型組裝為持續學習模型;獲取語音樣本數據;將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練;采用訓練好的持續學習模型對目標語音進行喚醒。2.根據權利要求1所述的基于持續學習模型的語音喚醒方法,其特征在于,基于輕量級深度殘差卷積網絡構建的教師模型和學生模型均依次序配置有1層第一全連接層、5層殘差卷積層、2層第二全連接層,1層特征圖層和1層概率層,各層依所述次序堆疊排放。3.根據權利要求2所述的基于持續學習模型的語音喚醒方法,其特征在于,每層所述殘差卷積層均由兩層前饋網絡和介于兩層前饋網絡中間的門控因果擴展卷積構成,所述兩層前饋網絡和所述門控因果擴展卷積通過殘差連接的方式連接。4.根據權利要求1所述的基于持續學習模型的語音喚醒方法,其特征在于,所述語音樣本數據包括代表過去知識的第一語音數據和代表新知識的第二語音數據,將所述語音樣本數據作為訓練樣本輸入所述持續學習模型中進行訓練,包括:將所述第一語音數據輸入所述教師模型進行預訓練;將所述第二語音數據同時輸入所述學生模型和完成預訓練的所述教師模型,且將所述學生模型和完成預訓練的所述教師模型均加載預設權重,以使完成預訓練的教師模型和學生模型獲得相同的過去知識;在訓練過程中,凍結完成預訓練的所述教師模型的權重,以使完成預訓練的教師模型的參數不進行更新,且對學生模型進行梯度下降學習;通過完成預訓練的教師模型對所述第二語音數據進行預測,并基于預測結果指導學生模型,以使學生模型在過去知識的基礎上對新知識進行學習。5.根據權利要求4所述的基于持續學習模型的語音喚醒方法,其特征在于,所述持續學習模型的訓練方法還...
【專利技術屬性】
技術研發人員:潘帥,張偉,陳曦,麻志毅,
申請(專利權)人:杭州未名信科科技有限公司浙江省北大信息技術高等研究院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。