一種用于音頻內(nèi)容識別的分類器參數(shù)更新方法,包括如下步驟:獲取新的訓練數(shù)據(jù);進行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二;利用數(shù)據(jù)集一更新高斯混合模型參數(shù);而對于數(shù)據(jù)集二,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù),如此本發(fā)明專利技術(shù)可針對當前的高斯混合模型,根據(jù)實際測試樣本來更新分類器參數(shù),從而可以達到最優(yōu)化分類的目的。
Classifier parameter updating method for audio content identification
A method for updating classifier parameters for identifying audio content, including the steps of obtaining new training data; data selection, data set and data set of two data sets; using an update of Gauss mixture model parameters; and the data set is two, first determine whether the data is greater than a threshold value, such as the amount of data is greater than a threshold value, by using the data set of two data update parameters of Gauss mixture model, so the invention aims at the current Gauss mixture model, to update the classifier parameters according to the actual test samples, so as to achieve the purpose of optimal classification.
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種,特別是指適用于基于高斯混合模型的分類器的參數(shù)更新方法。
技術(shù)介紹
音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索技術(shù)中的一個重要部分,相應的現(xiàn)有技術(shù)可參考中國專利1391211、 1223739 及1270361號及美國專利5, 613, 037、 6, 292, 776及5, 440, 662號等。 在音頻檢索應用中,需要對音頻數(shù)據(jù)進行分類,它的目的是區(qū)分輸入的音頻信 號屬于那一類,常見的音頻類別有人聲、背景噪聲、流行音樂、古典音樂等, 并且音頻內(nèi)容分類的應用也非常廣泛,特別是在音頻檢索領域,音頻內(nèi)容分 類起著決定性的作用,而在一些多媒體摘要的抽取過程中,音頻內(nèi)容分類作 為視頻內(nèi)容檢索的一種輔助手段也起到了重要作用。廣義上來說,在很多語 音和音頻標準,例如3GPP的AMR-WB和AMR-WB+里,它們都用到了語音 /噪聲分類器和語音/音樂分類器,提供給編碼器輸入信號是哪一種音頻信號, 從而對每一種信號采取不同的編碼器,因此設計一種良好的音頻內(nèi)容分類方 法是相當關鍵和重要的。在通常的分類方法中,通常用到兩個必不可少的模 塊,即音頻特征提取模塊,其功能是從輸入的音頻采樣點中提取反映音頻內(nèi) 容種類的信息,而另一個則是分類器,其利用這些信息完成對種類判斷的過程。在音頻內(nèi)容分類
內(nèi),已有很多種分類器被廣泛應用了,其中決策樹(Decision Tree)和k-最近鄰方法(K Nearest Neighbor)為兩種相對較 易于實現(xiàn)和理解的分類器,它們并對語音、環(huán)境噪聲、音樂三類音頻內(nèi)容分 類取得了良好的效果。此外,在AMR-WB+標準里,語音和音樂的分類器也 是采用的決策樹的方法。而支持向量機分類器(Support Vector Machine Classifier)作為一種近幾年來被很多機器學習和模式識別領域里采用的分類 器,也被證明是一種非常行之有效的方法。其他幾種經(jīng)典分類器,例如反向 神經(jīng)網(wǎng)絡(Back-Propagation Neural Network),人工神經(jīng)網(wǎng)絡(Artificial Neural Network),聚類(Clustering)方法,也被證明對音頻內(nèi)容分類是有效的。高斯混合模型(Gaussian Mixture Model, GMM)是一種應用最廣泛的概率 密度模型,尤其在音頻內(nèi)容分類器里,它認為特征向量的概率密度模型符合 高斯混合模型,并用訓練數(shù)據(jù)來估計混合模型的參數(shù),再根據(jù)建立的混合模 型采用適當?shù)姆诸惼魍瓿煞诸愡^程。而實際上,在很多分類器應用里,訓練 樣本都是很有限或者不充分的,無法根據(jù)實際測試樣本來更新分類器參數(shù), 進而無法達到最優(yōu)化分類的目的.
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于提供一種, 特別是指適用于基于高斯混合模型的分類器的參數(shù)更新方法,其能夠根據(jù)實 際測試樣本來更新分類器參數(shù),以達到最優(yōu)化分類的目的。依據(jù)上述專利技術(shù)目的,本專利技術(shù)提供一種用于音頻內(nèi)容識別的分類器參數(shù)更 新方法,包括如下步驟獲取新的訓練數(shù)據(jù);進行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二; 利用數(shù)據(jù)集一更新高斯混合模型參數(shù);而對于數(shù)據(jù)集二,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是 大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù)。依據(jù)上述主要特征,如果數(shù)據(jù)集二的數(shù)據(jù)量小于一門限值,則保持原高 斯混合模型參數(shù)不變。依據(jù)上述主要特征,其中在進行數(shù)據(jù)選擇的過程中是基于原參數(shù)所構(gòu)成 的高斯混合模型并計算新數(shù)據(jù)在此模型下概率的大小而選擇。依據(jù)上迷主要特征,其中當t A(x";A,:s,)"的時候,將新數(shù)據(jù)x"放在數(shù)據(jù)集一,而當|>^ ;/^,^)<7的時候,則將新數(shù)據(jù)^放在數(shù)據(jù)集二,此時v為一預設值。依據(jù)上述主要特征,其中在進行數(shù)據(jù)選擇的過程中是基于計算數(shù)據(jù)和高 斯混合模型分布中心的距離而選擇。依據(jù)上述主要特征,其中如果新數(shù)據(jù)和高斯混合模型分布中心的距離大 于某一個門限,則歸為數(shù)據(jù)集二,反之為歸為數(shù)據(jù)集一,依據(jù)上述主要特征,對于數(shù)據(jù)集一的數(shù)據(jù),應用如下的推導式子求出新 高斯混合模型參數(shù)其中參數(shù)^,A,!'-1,2,3決定著更新的強度,其具體值可以任意決定,只需 滿足a,+早=U-1,2,3。依據(jù)上述主要特征,上述的A-_J_,/-i,2j3,其中N是原數(shù)據(jù)集大小,K是數(shù)據(jù)集一的數(shù)據(jù)個數(shù)。依據(jù)上迷主要特征,其中對于數(shù)據(jù)集二的數(shù)據(jù),則訓練其自身的高斯混 合模型參數(shù)并更新整體的高斯混合模型參數(shù),采取如下的方法第一步根據(jù)xf,《,...,《計算這些數(shù)據(jù)所產(chǎn)生的高斯混合模型參數(shù)(新 增h個高斯混合)第二步重新分配混合百分比參數(shù)^,/ = 1,2,...,5 + /|,而不更新其它兩組參,巧,S乂,j-g + l,g + 2,…,g + A, 乂 = g +1, g + 2,…,A其中,參數(shù)須滿足"+ # = 1。依據(jù)上述主要特征,其中"-^^,p-"^,其中N是原數(shù)據(jù)集大小, K是數(shù)據(jù)集一的數(shù)據(jù)個數(shù)。與現(xiàn)有技術(shù)相比較,本專利技術(shù)針對當前的高斯混合模型,根據(jù)實際測試樣 本來更新分類器參數(shù),從而可以達到最優(yōu)化分類的目的,并且經(jīng)試驗證明, 針對音頻內(nèi)容分類,實施本專利技術(shù)的方法后得到的分類正確率要比不采用此方法平均增加5.3%,,對于某些特定音頻分類問題,其增強效果可以達到8.1% 以上,附圖說明圖1為實施本專利技術(shù)的流程圖.具體實施方式音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索 技術(shù)中的一個重要部分。在音頻檢索應用中,需要對音頻數(shù)據(jù)進行分類,它 的目的是區(qū)分輸入的音頻信號屬于那一類,常見的音頻類別有人聲、背景噪 聲、流行音樂、古典音樂等,并且音頻內(nèi)容分類的應用也非常廣泛,特別是 在音頻檢索領域,音頻內(nèi)容分類起著決定性的作用,而在一些多媒體摘要的 抽取過程中,音頻內(nèi)容分類作為視頻內(nèi)容檢索的一種輔助手段也起到了重要 作用。廣義上來說,在很多語音和音頻標準,例如3GPP的AMR-WB和 AMR-WB+里,它們都用到了語音/噪聲分類器和語音/音樂分類器,提供給編 碼器輸入信號是哪一種音頻信號,從而對每一種信號采取不同的編碼器,因 此設計一種良好的音頻內(nèi)容分類方法是相當關鍵和重要的。在通常的分類方法中,通常用到兩個必不可少的模塊,即音頻特征提取模塊,其功能是從輸 入的音頻采樣點中提取反映音頻內(nèi)容種類的信息,而另一個則是分類器,其 利用這些信息完成對種類判斷的過程.在音頻內(nèi)容分類
內(nèi),已有很多種分類器被廣泛應用了,其中決策樹(DecisionTree)和k-最近鄰方法(K Nearest Neighbor)為兩種相對較易于實現(xiàn)和理解的分類器,它們并對語音、 環(huán)境噪聲、音樂三類音頻內(nèi)容分類取得了良好的效果。此外,在八嫩- 8+ 標準里,語音和音樂的分類器也是采用的決策樹的方法。而支持向量機分類 器(Support Vector Machine Classifier)作為一種近幾年來被很多機器學習和 模式識別領域里采用的分類器,也被證明是一種非常行之有效的方法。其他 幾種經(jīng)典分類器,例如反向神經(jīng)網(wǎng)絡(Back-iPropagation Neural Network),人 工神經(jīng)網(wǎng)絡(Artificial Neural Network),聚類(Clustering)本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種用于音頻內(nèi)容識別的分類器參數(shù)更新方法,適用于基于高斯混合模型的分類器,其特征在于該方法包括如下步驟: 獲取新的訓練數(shù)據(jù); 進行數(shù)據(jù)選擇,得到數(shù)據(jù)集一及數(shù)據(jù)集二; 利用數(shù)據(jù)集一更新高斯混合模型參數(shù); 而對于數(shù)據(jù)集二 ,則先判斷其數(shù)據(jù)量是否大于一門限值,如其數(shù)據(jù)量是大于一門限值,則利用數(shù)據(jù)集二的數(shù)據(jù)更新整體的高斯混合模型參數(shù)。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:黃鶴云,林福輝,
申請(專利權(quán))人:展訊通信上海有限公司,
類型:發(fā)明
國別省市:31[中國|上海]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。