【技術實現步驟摘要】
本專利技術屬于音頻
,具體涉及。
技術介紹
概率線性判別分析(ProbabilisticLinear Discriminant Analysis,PLDA)已被證明是一種有效的低維空間表示方法,其優異的性能體現在人臉識別和說話人識別等多種生物身份認證領域。PLDA的基本方法可以表述為,在訓練階段利用訓練數據之間的類內差異(within-1ndividual)變量和類間差異(between-1ndividual)變量產生一個生成模型(generativemodel);在識別階段,該方法主要計算一種用于描述基于待識別數據的類內差異相似度。概率線性判別分析(ProbabilisticLinear Discriminant Analysis,PLDA)是一種基于線性判別分析(Linear Discriminant Analysis, LDA)的概率擴展方法。LDA是在1996年由Belhumeur引入模式識別和人工智能領域的,LDA通過產生原始數據空間的線性變換矩陣將原始高維數據投影到低維最佳鑒別矢量空間。LDA主要根據Fisher準則,將不同類數據盡量分開,將同一類數據盡量聚攏,保證投影后的數據在新的空間中具有最小的類內距離和最大的類間距離。當類的個數大于兩個的時候采用多類LDA算法,內容如下假設有屬于c(c>2)類的給定數據Ixiij e RN},其中i(l≤i≤C)表示類別,j表示第i類中的第j (I≤j≤Hi)個數據,IIi為第i類中的數據數,數據總數為n,第i類的平均值為IV所有數據的整體平均值為m。LDA的目標是尋找Xm的一個最佳投影矩陣 ...
【技術保護點】
一種基于局部學習的說話人識別方法,包括訓練階段與識別階段,其特征在于,訓練階段包括:將訓練數據通過提取特征和聚類方法分為特征空間上的多類訓練集;針對每類訓練集進行局部學習,通過概率線性判別分析方法獲得多個模型Xi,j,c=μc+Fchi,c+Gcwi,j,c+εi,j,c;其中,X代表訓練數據,i代表第i個說話人,j代表第j個數據矢量,c代表第c類,μc為第c類訓練數據的均值矢量,矩陣Fc代表第c類訓練數據的類間子空間的基,hi,c代表Fc在子空間的對應位置,矩陣Gc代表第c類訓練數據的類內子空間的基,wi,j,c代表Gc在子空間的對應位置,εi,j,c代表第c類訓練數據的殘留噪聲;識別階段包括:對待識別數據提取特征并進行分類判決得到特征空間上的多類待識別集;針對每類待識別集進行局部學習,根據訓練數據得到的多個模型計算每類待識別集的后驗概率作為結果。
【技術特征摘要】
1.一種基于局部學習的說話人識別方法,包括訓練階段與識別階段,其特征在于, 訓練階段包括 將訓練數據通過提取特征和聚類方法分為特征空間上的多類訓練集; 針對每類訓練集進行局部學習,通過概率線性判別分析方法獲得多個模型Xq,。=y C+FchijC+GcWij Jj c+ ε ijJjC ; 其中,X代表訓練數據,i代表第i個說話人,j代表第j個數據矢量,c代表第c類,μ。為第c類訓練數據的均值矢量,矩陣F。代表第c類訓練數據的類間子空間的基,hi,。代表F。在子空間的對應位置,矩陣G。代表第c類訓練數據的類內子空間的基,Wij。代表G。在子空間的對應位置,ε 代表第c類訓練數據的殘留噪聲; 識別階段包括 對待識別數據提取特征并進行分類判決得到特征空間上的多類待識別集; 針對每類待識別集進行局部學習,根據訓練數據得到的多個模型計算每類待識別集的后驗概率作為結果。2.按照權利要求1所述基于局部學習的說話人識別方法,其特征在于,所述訓練數據與識別階段的提取特征方法均是通過對原始語音數據提取Mel頻率倒譜系數(MelFrequency Cepstrum Coefficient, MFCC)作為特征數據實現。3.按照權利要求1或2所述基于局部學習的說話人識別方法,其特征在于,所述訓練數據的聚類方法的具體實現步驟如下 步驟一、根據預設的k值建立初始劃分來獲得k個初始聚類; 步驟二、計算每個數據到各個聚類中心數據值的距離,將它加入到最鄰近的一個聚類; 步驟三、重新計算每個聚類中心數據值; 步驟四、重復步驟二和步驟三,直到各個聚類中心數據值在某個精度范圍內不變化或...