本發(fā)明專利技術(shù)提供了用于對語音信號LPC系數(shù)進(jìn)行多級矢量量化的方法和系統(tǒng),以及解碼語音信號LPC系數(shù)的方法和系統(tǒng)。其中該對語音信號LPC系數(shù)進(jìn)行多級矢量量化的方法包括:通過等效變換,將LPC系數(shù)轉(zhuǎn)換為一等價表達(dá),并對該等價表達(dá)進(jìn)行第一級矢量量化,得到相應(yīng)的第一級量化索引和第一級量化殘差;基于GMM模型,對第一級量化殘差進(jìn)行模型聚類分割,得到相應(yīng)的GMM聚類索引;基于GMM聚類索引,對第一級量化殘差進(jìn)行第二級矢量量化,得到相應(yīng)的第二級矢量索引;以及將經(jīng)歷進(jìn)一步編碼處理的第一級量化索引、GMM聚類索引、及第二級矢量索引傳到解碼端。實(shí)施本發(fā)明專利技術(shù)的方法和系統(tǒng),可實(shí)現(xiàn)較高的量化性能和較低的運(yùn)算復(fù)雜度。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語音編碼領(lǐng)域,更具體地,本專利技術(shù)涉及基于線性預(yù)測編碼(LPC)類的語音編碼技術(shù)。
技術(shù)介紹
在語音編碼壓縮中,通常用LPC系數(shù)表征語音的短時譜包絡(luò),對其高效量化是語音編碼中一個關(guān)鍵性問題。由于LPC系數(shù)的動態(tài)范圍比較大,出于合成濾波器穩(wěn)定性和量化效率的考慮,LPC系數(shù)通常被轉(zhuǎn)換為在數(shù)學(xué)上完全等價的其它形式的參數(shù)后再量化,通常的表示形式為導(dǎo)抗譜頻率系數(shù)(ISF)或線譜頻率參數(shù)(LSF)。LSF作為LPC系數(shù)的一種頻域參數(shù),由于其具有更好的量化和插值特性,語音編碼端常將LPC系數(shù)轉(zhuǎn)換為LSF系數(shù),然后再將LSF系數(shù)進(jìn)行量化,語音解碼端進(jìn)行逆量化得到量化后的LSF參數(shù),并將LSF參數(shù)再轉(zhuǎn)換為LPC系數(shù),因此LSF在基于LPC語音編碼中得到了廣泛的應(yīng)用。由于矢量量化在相同的編碼比特數(shù)下能獲得比標(biāo)量量化更低的量化失真,因此對LSF系數(shù)量化的研究主要集中在矢量量化上,參見Gardner W R等人發(fā)表于IEEE Transactions on Speech and Audio Processing, 1995. 3 (5) :367 381 的論文 Theoretical analysis of the high-rate vector quantization of LPC parameters。目前LPCi吾音編碼中的矢量量化技術(shù)主要存在以下缺陷第一,將高維LSF系數(shù)作為一個矢量進(jìn)行整體量化的方法并不可行,其存在存儲量大、搜索運(yùn)算復(fù)雜、難以實(shí)現(xiàn)的問題。第二,對于其他次優(yōu)矢量量化算法一般都基于LBG等聚類訓(xùn)練算法得到矢量量化器,雖然適合對任何概率分布的源信號進(jìn)行高效量化,但其需要大量的存儲空間存儲矢量碼本(一般隨量化比特數(shù)和矢量的維數(shù)成指數(shù)增長),運(yùn)算復(fù)雜度高、存儲空間大。常見的次優(yōu)矢量量化算法例如多級矢量量化(可參見 LeBlance W P 等人發(fā)表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (4) : 373 385 的論文 Efficient search and design procedures for robust mult1-stage VQ of LPC parameters for4Kb/s speech coding.和周高洪等人發(fā)表于電子技術(shù)應(yīng)用,2005. 6:4擴(kuò)51的論文一種增強(qiáng)的LPC參數(shù)多級矢量量化技術(shù))、分裂矢量量化(了參見 Paliwal K. K 等人發(fā)表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (I) : 3 14 的論文Efficient vector quantization of LPC parameters at24bit/frame和李靚等人發(fā)表于北京工業(yè)大學(xué)學(xué)報,2005. 3,Vol. 31,No2:130^135的論文一種高效、低存儲的線譜頻率參數(shù)矢量量化器件)等。2003年Subramaniam提出的基于GMM模型的線譜頻率(LSF)參數(shù)量化算法 (具體可見 Subramaniam A. D 和 Rao B. D.發(fā)表于 IEEE Transactions on Speech and Audio Processing, 2003. 11 (2):130 142 的論文 PDF optimized parametric vector quantization of speech line spectral frequencies),其基本思想是利用高斯混合模型將輸入的LSF矢量分成屬于不同高斯分布的M個聚類,然后針對每個高斯聚類設(shè)計量化器實(shí)現(xiàn)對該高斯聚類信號的量化。但是,這種算法是基于標(biāo)量量化器的,從理論上來說標(biāo)量量化在相同的比特數(shù)的情況下,其量化性能是次于矢量量化的,而且其量化算法需要將輸入的矢量通過KLT (Karhunen-Leove變換)轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布,隨著輸入矢量的維數(shù)增加, 其變換的運(yùn)算復(fù)雜度將急劇增加。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)的量化性能低、運(yùn)算復(fù)雜度高、存儲空間大等問題中的至少一些缺陷,提供以下技術(shù)方案。根據(jù)本專利技術(shù)的第一方面,提供了用于對語音信號LPC系數(shù)進(jìn)行多級矢量量化的方法,其包括通過等效變換,將LPC系數(shù)轉(zhuǎn)換為一等價表達(dá),并對該等價表達(dá)進(jìn)行第一級矢量量化,得到相應(yīng)的第一級量化索引和第一級量化殘差;基于GMM模型,對第一級量化殘差進(jìn)行模型聚類分割,得到相應(yīng)的GMM聚類索引;基于GMM聚類索引,對第一級量化殘差進(jìn)行第二級矢量量化,得到相應(yīng)的第二級矢量索引;以及將經(jīng)歷進(jìn)一步編碼處理的第一級量化索引、GMM聚類索引、及第二級矢量索引傳到解碼端。在一個優(yōu)選實(shí)施例中,LPC系數(shù)的等價表達(dá)可以是LSF或者ISF系數(shù)中的一種。進(jìn)一步地,第一級矢量量化可選自多級矢量量化、分裂矢量量化或混合矢量量化其中一種。優(yōu)選地,第一級矢量量化進(jìn)一步包含兩次矢量量化,第一次矢量量化采用隨機(jī)矢量碼本對信號進(jìn)行矢量量化,第二次矢量量化將第一次矢量量化的殘差分裂為N維矢量,然后按照第一次矢量量化的量化方式處理N維矢量,得到第一級量化索引和第一級量化殘差。在一個優(yōu)選實(shí)施例中,在模型聚類分割中,將第一級量化殘差進(jìn)行高斯格型量化, 得到針對GMM模型各種情況的多個格矢量,以及基于GMM模型及多個格矢量,將第一級量化殘差聚類分割到某一 GMM聚類,并確定GMM聚類索引。進(jìn)一步地,第一級量化殘差聚類分割的方法包括全局搜索法。優(yōu)選地,高斯格型量化包括歸一化的步驟,并且歸一化后的矢量量化為RE8、Z8、Z16、D8、D16格矢量中的一種。在一個優(yōu)選實(shí)施例中,所述高斯格型量化還包括歸一化的步驟,通過下式實(shí)現(xiàn)所述歸一化_ χ-μ;y=7T 其中X為高斯模型的輸入矢量,Ui為第i個高斯模型的均值矢量,^為第1個高斯模型的方差矢量。在優(yōu)選實(shí)施例中,對第一級量化殘差進(jìn)行模型聚類分割的方法可選自全局搜索法、矢量量化法或后驗(yàn)概率計算法中的一種。根據(jù)本專利技術(shù)的第二方面,提供了用于對語音信號LPC系數(shù)進(jìn)行多級矢量量化的系統(tǒng),其包括等效變換器,其將LPC系數(shù)轉(zhuǎn)換為一等價表達(dá);耦合到等價變換器的第一級矢量量化器,其接收等價表達(dá)并對等價表達(dá)進(jìn)行第一級矢量量化,得到相應(yīng)的第一級量化索引和第一級量化殘差;耦合到第一級矢量量化器的GMM模型聚類分割器,其基于GMM模型對第一級量化殘差進(jìn)行模型聚類分割,得到相應(yīng)的GMM聚類索引;耦合到GMM模型聚類分割器的第二級矢量量化器,其基于GMM聚類索引,對第一級量化殘差進(jìn)行第二級矢量量化,得到相應(yīng)的第二級矢量索引;以及發(fā)送器,將經(jīng)歷進(jìn)一步編碼處理的第一級量化索引、GMM聚類索引、及第二級矢量索引傳到解碼端。在一個優(yōu)選實(shí)施例中,LPC系數(shù)可以是LSF或ISF系數(shù)中的一種。進(jìn)一步地,第一級矢量量化器可選自多級矢量量化器、分裂矢量量化器、混合矢量量化器中的其中一種。優(yōu)選地,第一級矢量量化進(jìn)一步包括兩次矢量量化,第一次矢量量化采用隨機(jī)矢量碼本對信號進(jìn)行矢量量化,第二次矢量量化將第一次矢量量化的殘差分裂為N維矢量,然后按照第一次矢量量化的量化方式處理N維矢量,得到第一級量化索引和第一級本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種用于對語音信號LPC系數(shù)進(jìn)行多級矢量量化的方法,包括:a通過等效變換,將所述LPC系數(shù)轉(zhuǎn)換為等價表達(dá),并對所述等價表達(dá)進(jìn)行第一級矢量量化,得到相應(yīng)的第一級量化索引和第一級量化殘差;b基于GMM模型對所述第一級量化殘差進(jìn)行第二級矢量量化,得到相應(yīng)的第二級矢量索引;以及c將經(jīng)歷進(jìn)一步編碼處理的所述第一級量化索引、GMM聚類索引、及第二級矢量索引傳到解碼端。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張勇,閆建新,
申請(專利權(quán))人:深圳廣晟信源技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。