一種基于局部學習的說話人識別方法技術

技術編號：8563595 閱讀：171 留言：1更新日期：2013-04-11 05:30

一種基于局部學習的說話人識別方法，包括訓練階段與識別階段，訓練階段包括：將訓練數據通過提取特征和聚類方法分為特征空間上的多類訓練集；針對每類訓練集進行局部學習，通過概率線性判別分析方法獲得多個模型；識別階段包括：對待識別數據提取特征并進行分類判決得到特征空間上的多類待識別集；針對每類待識別集進行局部學習，根據訓練數據得到的多個模型計算每類待識別集的后驗概率作為結果；本發明專利技術應用于說話人識別中的說話人鑒別和說話人確認場景，可以降低由于異構性數據引起的錯誤識別率，最后每類待識別集的后驗概率信息作為結果被系統輸出。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于音頻
，具體涉及。
技術介紹
概率線性判別分析(ProbabilisticLinear Discriminant Analysis,PLDA)已被證明是一種有效的低維空間表示方法，其優異的性能體現在人臉識別和說話人識別等多種生物身份認證領域。PLDA的基本方法可以表述為，在訓練階段利用訓練數據之間的類內差異(within-1ndividual)變量和類間差異(between-1ndividual)變量產生一個生成模型(generativemodel);在識別階段，該方法主要計算一種用于描述基于待識別數據的類內差異相似度。概率線性判別分析(ProbabilisticLinear Discriminant Analysis,PLDA)是一種基于線性判別分析(Linear Discriminant Analysis, LDA)的概率擴展方法。LDA是在1996年由Belhumeur引入模式識別和人工智能領域的，LDA通過產生原始數據空間的線性變換矩陣將原始高維數據投影到低維最佳鑒別矢量空間。LDA主要根據Fisher準則，將不同類數據盡量分開，將同一類數據盡量聚攏，保證投影后的數據在新的空間中具有最小的類內距離和最大的類間距離。當類的個數大于兩個的時候采用多類LDA算法，內容如下假設有屬于c(c>2)類的給定數據Ixiij e RN}，其中i(l≤i≤C)表示類別，j表示第i類中的第j (I≤j≤Hi)個數據,IIi為第i類中的數據數，數據總數為n，第i類的平均值為IV所有數據的整體平均值為m。LDA的目標是尋找Xm的一個最佳投影矩陣...

【技術保護點】
一種基于局部學習的說話人識別方法，包括訓練階段與識別階段，其特征在于，訓練階段包括：將訓練數據通過提取特征和聚類方法分為特征空間上的多類訓練集；針對每類訓練集進行局部學習，通過概率線性判別分析方法獲得多個模型Xi，j，c＝μc+Fchi，c+Gcwi，j，c+εi，j，c；其中，X代表訓練數據，i代表第i個說話人，j代表第j個數據矢量，c代表第c類，μc為第c類訓練數據的均值矢量，矩陣Fc代表第c類訓練數據的類間子空間的基，hi，c代表Fc在子空間的對應位置，矩陣Gc代表第c類訓練數據的類內子空間的基，wi，j，c代表Gc在子空間的對應位置，εi，j，c代表第c類訓練數據的殘留噪聲；識別階段包括：對待識別數據提取特征并進行分類判決得到特征空間上的多類待識別集；針對每類待識別集進行局部學習，根據訓練數據得到的多個模型計算每類待識別集的后驗概率作為結果。

【技術特征摘要】
1.一種基于局部學習的說話人識別方法，包括訓練階段與識別階段，其特征在于，訓練階段包括將訓練數據通過提取特征和聚類方法分為特征空間上的多類訓練集；針對每類訓練集進行局部學習，通過概率線性判別分析方法獲得多個模型Xq,。=y C+FchijC+GcWij Jj c+ ε ijJjC ；其中，X代表訓練數據，i代表第i個說話人，j代表第j個數據矢量，c代表第c類，μ。為第c類訓練數據的均值矢量，矩陣F。代表第c類訓練數據的類間子空間的基，hi,。代表F。在子空間的對應位置，矩陣G。代表第c類訓練數據的類內子空間的基，Wij。代表G。在子空間的對應位置，ε 代表第c類訓練數據的殘留噪聲；識別階段包括對待識別數據提取特征并進行分類判決得到特征空間上的多類待識別集；針對每類待識別集進行局部學習，根據訓練數據得到的多個模型計算每類待識別集的后驗概率作為結果。2.按照權利要求1所述基于局部學習的說話人識別方法，其特征在于，所述訓練數據與識別階段的提取特征方法均是通過對原始語音數據提取Mel頻率倒譜系數(MelFrequency Cepstrum Coefficient, MFCC)作為特征數據實現。3.按照權利要求1或2所述基于局部學習的說話人識別方法，其特征在于，所述訓練數據的聚類方法的具體實現步驟如下步驟一、根據預設的k值建立初始劃分來獲得k個初始聚類；步驟二、計算每個數據到各個聚類中心數據值的距離，將它加入到最鄰近的一個聚類；步驟三、重新計算每個聚類中心數據值；步驟四、重復步驟二和步驟三，直到各個聚類中心數據值在某個精度范圍內不變化或...

【專利技術屬性】
技術研發人員：楊毅，陳國順，馬欣，
申請(專利權)人：清華大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有1條評論

來自[北京市聯通] 2014年12月11日 08:40

的說詞語用法……的說同有……之說即有某種說法的意思一般為口語后綴

0

發布您的意見

相關領域技術

一種用于語音識別系統的多環境特征補償...

<li id="m4gaq"></li><abbr id="m4gaq"></abbr>