【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及音頻編碼和解碼,并且具體地針對具有諧波或語音內(nèi)容的、可受到時間扭曲處理的音頻信號的編碼/解碼。
技術(shù)介紹
在下文中,將給出對時間扭曲音頻編碼的領(lǐng)域的簡要說明,該編碼的概念可結(jié)合本專利技術(shù)的一些實(shí)施例一起應(yīng)用。近年來,技術(shù)上的發(fā)展可將音頻信號變換為頻域表示,并且例如考慮到感知屏蔽閾值,可以對該頻域表示進(jìn)行有效地編碼。如果發(fā)送編碼頻譜系數(shù)組的塊長度很長,且如果僅相當(dāng)小數(shù)目的頻譜系數(shù)遠(yuǎn)在該全局屏蔽閾值之上,同時很大數(shù)目的頻譜系數(shù)在該全局屏蔽閾值附近或之下并可能因而被忽略(或以最小碼長進(jìn)行編碼)時,該音頻信號編碼的概念特別有效。例如,基于余弦或基于正弦的調(diào)制的重疊變換通常由于它們的能量壓縮性質(zhì)而用于源編碼的應(yīng)用。即,對于具有恒定基本頻率(音調(diào))的諧音而言,它們將信號能量濃縮于小數(shù)目的頻譜分量(子頻帶)中,這導(dǎo)致了有效的信號表示。大體而言,應(yīng)當(dāng)將信號的(基本)音調(diào)理解為可與該信號頻譜相區(qū)別的最低主頻率。在普通語音模型中,該音調(diào)是由人類喉嚨調(diào)制的激勵信號的頻率。如果僅一個單一基本頻率存在,該頻譜將極其簡單,僅包括該基本頻率及泛音??梢愿咝У貙@種頻譜編碼。然而,對于具有變化音調(diào)的信號,對應(yīng)于每個諧波分量的能量散布于若干變換系數(shù)上,因而導(dǎo)致編碼效率的減少。為了克服編碼效率的減少,在不均勻時間網(wǎng)格上對要編碼的音頻信號有效地重新采樣。在隨后的處理中,對通過不均勻重新采樣所獲得的采樣位置就好像它們表示均勻時間網(wǎng)格上的值一樣進(jìn)行處理。該操作一般由短語“時間扭曲”來表示??扇Q于該音調(diào)的時間變化來有利地選擇采樣時間,使得該音頻信號的時間扭曲版本中的音調(diào)變化小于該音 ...
【技術(shù)保護(hù)點(diǎn)】
一種用于基于音頻信號的表示(110;234e;234k)來提供時間扭曲激活信號(112;232;234p)的時間扭曲激活信號提供器(100;230;234),所述時間扭曲激活信號提供器包括:能量壓縮信息提供器(120;234f;234l;325;370),被配置為提供能量壓縮信息(122;234m;234n;326;374),所述能量壓縮信息描述所述音頻信號的時間扭曲變換頻譜表示(222)的能量壓縮;以及比較器(130;234o),被配置為將所述能量壓縮信息(122;234m;234n;326;374)與參考值相比較,以及被配置為取決于比較結(jié)果提供時間扭曲激活信號(112;232;234p)。
【技術(shù)特征摘要】
2008.07.11 US 61/079,8731.一種用于基于音頻信號的表不(110 ;234e ;234k)來提供時間扭曲激活信號(112 ;232 ;234p)的時間扭曲激活信號提供器(100 ;230 ;234),所述時間扭曲激活信號提供器包括:能量壓縮信息提供器(120 ;234f ;2341 ;325 ;370),被配置為提供能量壓縮信息(122 ;234m ;234n ;326 ;374),所述能量壓縮信息描述所述音頻信號的時間扭曲變換頻譜表示(222)的能量壓縮;以及比較器(130 ;234o),被配置為將所述能量壓縮信息(122 ;234m ;234n ;326 ;374)與參考值相比較,以及被配置為取決于比較結(jié)果提供時間扭曲激活信號(112 ;232 ;234p)。2.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為提供作為所述能量壓縮信息(122 ;234m ;234η)的頻譜平坦度度量,所述頻譜平坦度度量描述所述音頻信號的時間扭曲變換頻譜表示(234e ;234k)。3.根據(jù)權(quán)利要求2所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為計(jì)算所述音頻信號的時間扭曲變換功率頻譜(234e ;234k)的幾何平均與所述音頻信號的時間扭曲變換功率頻譜(234e ;234k)的算術(shù)平均的商,以獲得所述頻譜平坦度度量。4.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為:與所述時間扭曲變換頻譜表示(234e ;234k)的較低頻率部分相比時,強(qiáng)調(diào)所述時間扭曲變換頻譜表示(234e ;234k)的較高頻率部分,以獲得所述能量壓縮信息(122 ;234m ;234n)。5.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234m;234η)被配置為獲得頻譜平坦度的多個逐頻帶度量,以及被配置為計(jì)算所述頻譜平坦 度的多個逐頻帶度量的平均值,以獲得所述能量壓縮信息(122,234m ;234n)。6.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;325)被配置為提供作為所述能量壓縮信息(122 ;234m ;234η)的感知熵(pe)度量,所述感知熵(pe)度量描述所述音頻信號的時間扭曲變換頻譜表示(234e ;234k)。7.根據(jù)權(quán)利要求6所述的時間扭曲激活信號提供器(100;230 ;234 ;235),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;325)被配置為基于擴(kuò)縮因子頻帶的波形因子信息(ffac(n)),計(jì)算所述音頻信號的時間扭曲變換頻譜表示(234e;234k)的一個或多個擴(kuò)縮因子頻帶的非零線的估計(jì)數(shù)目(nl),以及被配置為將非零線的所述估計(jì)數(shù)目(nl)與在考察的擴(kuò)縮因子頻帶的能量度量相乘,來計(jì)算所考察的所述擴(kuò)縮因子頻帶的感知熵(326)度量。8.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;370)被配置為提供作為所述能量壓縮信息的自相關(guān)度量(374),所述自相關(guān)度量(374)描述所述音頻信號的時間扭曲時域表示(234e ;234k)的自相關(guān)。9.根據(jù)權(quán)利要求...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:斯特凡·拜爾,薩沙·迪施,拉爾夫·蓋格爾,紀(jì)堯姆·??怂?/a>,馬克斯·諾伊恩多夫,杰拉爾德·舒勒,貝恩德·埃德勒,
申請(專利權(quán))人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。