本發明專利技術屬于人工智能領域,特別涉及一種基于多標簽糾正和時空協同融合的語音情感識別方法,構建包括時域模塊、空域模塊、協同融合模塊以及分類模塊的時空協同融合網絡,采用單標簽語音對該網絡進行預訓練優化,利用預訓練的時空協同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優化時空協同融合網絡,完成優化的時空協同融合網絡對語音進行情感識別;本發明專利技術聚焦于如何成功利用標簽具有歧義的語音樣本,實現了網絡從歧義語音中獲得情感信息,在訓練樣本數量緊缺的情況下,可提升現有樣本的利用率。可提升現有樣本的利用率。可提升現有樣本的利用率。
【技術實現步驟摘要】
基于多標簽糾正和時空協同融合的語音情感識別方法
[0001]本專利技術屬于人工智能領域,特別涉及一種基于多標簽糾正和時空協同融合的語音情感識別方法。
技術介紹
[0002]語音是人類自然交流的主要媒介之一,不僅傳達了說話人的目的信息,還表現了說話人的情感狀態。利用計算機從語音中識別說話人情感狀態的過程被稱為語音情感識別。它是人機交互中的一項重要任務,可以幫助智能語音交互系統理解用戶的潛在意圖,為產品帶來更好的用戶體驗。比如呼叫中心的語音接聽助手,智慧家居的語音服務,智能駕駛的情感檢測系統、醫療保健的情感輔助治療等。隨著這些應用需求的高漲,語音情感識別引起了越來越多研究者的關注。
[0003]常見的語音情感識別是基于單標簽訓練的,即一條語音對應一個固定的真實標簽,代表該語音只包含了一種情感。然而,現實生活中大多數語音情感是模糊的,往往摻雜了多種情感,比如情感為傷心的語音表達中會夾雜著憤怒和失望的情感表現。此外,情感專家們可能會根據自身文化和個性的不同,而對模糊的情感呈現出不同的看法,即對情感感知具有主觀性。結合上述,以單標簽表示語音的真實情感,不僅缺乏情感的混合表達能力,還忽略了情感專家們對情感感知的主觀性。
[0004]注意到這些問題,基于多標簽的方法被提出,從標簽定義上表示出情感的模糊性和情感感知的主觀性。多標簽包含兩種類型,一種是計算情感專家對各類情感的投票比例來描述情感的模糊性,但這種固定的情感比例并不代表大多數人所認可的真正比例;另一種則不受比例限制,僅僅根據情感專家是否對此類情感投票來估計情感存在或缺失,但仍依賴于部分情感專家所賦予的情感認知,且不具有明確的情感偏向。
[0005]于是,一些更有效的模糊處理訓練方式繼而被開發,比如聯合學習、元學習、情感輪廓提煉、多分類器交互等,旨在結合模型本身知識,以避免單標簽和多標簽方法依賴情感專家所賦予標簽的問題。然而,這些方法均只考慮了只具有單標簽的語音樣本,即可以得到大多數情感專家共識的樣本,沒有利用數據集中無標簽的語音樣本。然而,語音情感的模糊性主要體現于這些無標簽樣本中。因為無標簽樣本是由于情感專家對該語音的情感判斷無法達成共識造成的,這表明該樣本的情感模糊,導致人類難以辨認。并且,在實際環境中的語音并不是每一句都具有大多數認同的情感。因而,這些沒有利用無標簽語音樣本的方法,并沒有完全考慮到真正具有情感模糊性的語音樣本。
技術實現思路
[0006]有鑒于此,本專利技術提出一種基于多標簽糾正和時空協同融合的語音情感識別方法,構建包括時域模塊、空域模塊、協同融合模塊以及分類模塊的時空協同融合網絡,采用單標簽語音對該網絡進行預訓練優化,利用預訓練的時空協同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優化時空協同融合網絡,完
成優化的時空協同融合網絡對語音進行情感識別,過程具體包括以下步驟:
[0007]S1、根據語音頻譜的空間特性和語音波形的時序特性,利用卷積神經網絡和Wav2vec模型分別從語音的空間域和時間域提取情感特征,并采用協同融合方法實現時空特征交互,構成時空協同融合網絡;
[0008]S2、初始化時空協同融合網絡,將具有單個情感標簽的語音作為第一訓練集,用于預訓練時空協同融合網絡,將此得到的預訓練網絡稱為M
p
;
[0009]S3、將歧義語音輸入完成預訓練的時空協同融合網絡M
p
,預測得到輸入樣本的生成情感標簽;
[0010]S4、將歧義語音的生成情感標簽與原始多標簽結合進行標簽糾錯,得到具有糾正標簽的歧義語音樣本;
[0011]S5、將具有單個情感標簽的語音和具有糾正標簽的歧義語音作為第二訓練集,重新訓練優化時空協同融合網絡,并將該網絡稱為M
f
;
[0012]其中,歧義語音是指具有多個情感標簽的語音樣本。
[0013]進一步的,時空協同融合網絡包括:
[0014]101、在時域模塊,利用Wav2vec模型從語音信息的原始波形中獲取時間域情感特征;
[0015]102、在空域模塊,利用卷積神經網絡對語音消息的頻域進行處理,得到語音消息的空間域情感特征;
[0016]103、在協同融合模塊利用一個全連接層,將空間域情感特征轉換為空間情感權重,將空間情感權重與時間域情感特征相乘進行融合,得到附有空間情感信息的時間情感特征;
[0017]104、將附有空間情感信息的時間情感特征輸入分類模塊,得到情感分類結果。
[0018]進一步的,將具有單個情感標簽的樣本作為第一訓練集,輸入時空協同融合網絡進行預訓練的損失函數表示為:
[0019][0020]其中,N表示情感數據集的樣本總數量,表示為語音的單個情感標簽,表示預訓練時空協同融合網絡M
p
的預測輸出,x
i
表示輸入網絡的第i個樣本。
[0021]進一步的,語音的單個情感標簽表示為:
[0022][0023]其中,表示情感數據集中第i個樣本是否存在第j個情感類別,N表示情感數據集的樣本總數量,K表示分類的情感類別數。
[0024]進一步的,將具有單個情感標簽的樣本和具有糾正標簽的歧義樣本作為第二訓練集對時空協同融合網絡進行訓練時采用的損失函數表示為:
[0025][0026]其中,N表示情感數據集的樣本總數量,表示糾正標簽,表示網絡M
f
的預測輸出,x
i
表示輸入網絡的第i個樣本。
[0027]進一步的,得到糾正標簽的過程包括:
[0028][0029]其中,表示歧義樣本進行糾錯后得到的標簽,x
i
表示輸入網絡的第i個樣本,M
p
表示預訓練的時空協同融合網絡;為歧義樣本的原始標簽;為預訓練時空協同融合網絡M
p
的生成標簽,λ∈[0,1]表示平衡因子。
[0030]進一步的,歧義樣本的原始標簽為多個獨熱向量相加所得的多標簽形式,表示為:
[0031][0032]其中,表示表示情感數據集中第i個樣本是否存在第j種情感類別,N表示情感數據集的樣本總數量,K表示情感的類別數量。
[0033]進一步的,生成標簽可分為多標簽和單標簽這兩種形式,多標簽形式的生成標簽為網絡M
p
對輸入樣本x
i
的預測輸出,表示為:
[0034][0035]單標簽形式的生成標簽需進一步從網絡M
p
輸出的概率分布向量中選取概率最大的類別,以獨熱向量的形式表示為:
[0036][0037][0038]其中,表示預訓練時空協同融合網絡M
p
的預測輸出的概率分布向量,x
i
表示輸入網絡的第i個樣本;j,k∈[1,K]為整數,表示的第k個情感類別的值,為的第j個情感類別的值。
[0039]本專利技術的有益效果在于:
[0040]1)構建了一種時空協同本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,構建包括時域模塊、空域模塊、協同融合模塊以及分類模塊的時空協同融合網絡,采用單標簽語音對該網絡進行預訓練優化,利用預訓練的時空協同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優化時空協同融合網絡,完成優化的時空協同融合網絡對語音進行情感識別,過程具體包括以下步驟:S1、根據語音頻譜的空間特性和語音波形的時序特性,利用卷積神經網絡和Wav2vec模型分別從語音的空間域和時間域提取情感特征,并采用協同融合方法實現時空特征交互,構成時空協同融合網絡;S2、初始化時空協同融合網絡,將具有單個情感標簽的語音作為第一訓練集,用于預訓練時空協同融合網絡,將此得到的預訓練網絡稱為M
p
;S3、將歧義語音輸入完成預訓練的時空協同融合網絡M
p
,預測得到輸入樣本的生成情感標簽;S4、將歧義語音的生成情感標簽與原始多標簽結合進行標簽糾錯,得到具有糾正標簽的歧義語音樣本;S5、將具有單個情感標簽的語音和具有糾正標簽的歧義語音作為第二訓練集,重新訓練優化時空協同融合網絡,并將該網絡稱為M
f
;其中,歧義語音是指具有多個情感標簽的語音樣本。2.根據權利要求1所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,時空協同融合網絡包括:101、在時域模塊,利用Wav2vec模型從語音信息的原始波形中獲取時間域情感特征;102、在空域模塊,利用卷積神經網絡對語音消息的頻域進行處理,得到語音消息的空間域情感特征;103、在協同融合模塊利用一個全連接層,將空間域情感特征轉換為空間情感權重,將空間情感權重與時間域情感特征相乘進行融合,得到附有空間情感信息的時間情感特征;104、將附有空間情感信息的時間情感特征輸入分類模塊,得到情感分類結果。3.根據權利要求1所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,將具有單個情感標簽的樣本作為第一訓練集,輸入時空協同融合網絡進行預訓練的損失函數表示為:其中,N表示情感數據集的樣本總數量,為語音的單個情感標簽,表示預訓練時空協同融合網絡M
p
的預測輸出,x
...
【專利技術屬性】
技術研發人員:甘臣權,王可欣,祝清意,
申請(專利權)人:重慶郵電大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。