本申請(qǐng)實(shí)施例中提供的一種聲學(xué)特征提取方法、裝置、存儲(chǔ)介質(zhì)及終端設(shè)備,該方法包括:獲取待處理語(yǔ)音信號(hào);對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。通過(guò)采用上述技術(shù)方案,可以降低提取梅爾頻率倒譜系數(shù)時(shí)對(duì)每幀數(shù)據(jù)的算法的次數(shù),可以降低提取聲學(xué)特征帶來(lái)的功耗。
Acoustic feature extraction method, device, storage medium and terminal equipment
An acoustic feature extraction method, device, storage medium and terminal device provided in the embodiment of the present application includes: acquiring speech signal to be processed; subframe processing of the speech signal to be processed to obtain a continuous voice data block in frame units, in which the last of the voice data blocks of the previous frame is the last of the voice data blocks of each two adjacent frames. The data and the first data in the voice data block of the latter frame remain continuous in time domain; the voice energy spectrum is obtained by windowing and Fourier transform processing of the voice data block; the voice energy spectrum is obtained through the Mel filter bank to obtain the Mel spectrum data; and the Mel frequency cepstrum coefficient is determined according to the Mel spectrum data. By adopting the above technical scheme, the number of algorithms for extracting Meier frequency cepstrum coefficients for each frame can be reduced, and the power consumption for extracting acoustic characteristics can be reduced.
【技術(shù)實(shí)現(xiàn)步驟摘要】
聲學(xué)特征提取方法、裝置、存儲(chǔ)介質(zhì)及終端設(shè)備
本申請(qǐng)實(shí)施例涉及信號(hào)處理
,尤其涉及一種聲學(xué)特征提取方法、裝置、存儲(chǔ)介質(zhì)及終端設(shè)備。
技術(shù)介紹
隨著終端設(shè)備的快速發(fā)展,越來(lái)越多的語(yǔ)音功能應(yīng)用到終端設(shè)備中,例如聲紋喚醒和語(yǔ)音識(shí)別等等。梅爾頻率倒譜系數(shù)(MFCC,MelFrequencyCepstrumCoefficient)是基于人耳的聽覺(jué)而導(dǎo)出的聲學(xué)特征,廣泛應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域應(yīng),在進(jìn)行聲紋喚醒或者語(yǔ)音識(shí)別時(shí),通常需要從語(yǔ)音數(shù)據(jù)中提取出梅爾頻率倒譜系數(shù)作為識(shí)別語(yǔ)音的特征。而現(xiàn)有技術(shù)中對(duì)梅爾頻率倒譜系數(shù)的提取處理會(huì)造成終端設(shè)備的較多的功耗,所以需要對(duì)梅爾頻率倒譜系數(shù)的提取方法進(jìn)行優(yōu)化。
技術(shù)實(shí)現(xiàn)思路
本申請(qǐng)實(shí)施例提供的一種聲學(xué)特征提取方法、裝置、存儲(chǔ)介質(zhì)及終端設(shè)備,可以降低終端設(shè)備的功耗。第一方面,本申請(qǐng)實(shí)施例提供了一種聲學(xué)特征提取方法,包括:獲取待處理語(yǔ)音信號(hào);對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。第二方面,本申請(qǐng)實(shí)施例提供了一種聲學(xué)特征提取裝置,包括:信號(hào)獲取模塊,用于獲取待處理語(yǔ)音信號(hào);分幀模塊,用于對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);能量譜獲取模塊,用于對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;濾波模塊,用于將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);系數(shù)提取模塊,用于根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。第三方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)實(shí)施例所述的聲學(xué)特征提取方法。第四方面,本申請(qǐng)實(shí)施例提供了一種終端設(shè)備,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如本申請(qǐng)實(shí)施例所述的聲學(xué)特征提取方法。本申請(qǐng)實(shí)施例中提供的一種聲學(xué)特征提取方案,通過(guò)獲取待處理語(yǔ)音信號(hào);對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。通過(guò)采用上述技術(shù)方案,可以降低提取梅爾頻率倒譜系數(shù)時(shí)對(duì)每幀數(shù)據(jù)的算法的次數(shù),可以降低提取聲學(xué)特征帶來(lái)的功耗。附圖說(shuō)明圖1為本申請(qǐng)實(shí)施例提供的一種聲學(xué)特征提取方法的流程示意圖;圖2為本申請(qǐng)實(shí)施例提供的分幀處理的示意圖;圖3為本申請(qǐng)實(shí)施例提供的矩形濾波器組的示意圖;圖4為本申請(qǐng)實(shí)施例提供的一種聲學(xué)特征提取裝置的結(jié)構(gòu)框圖;圖5為本申請(qǐng)實(shí)施例提供的一種終端設(shè)備的結(jié)構(gòu)示意圖;圖6為本申請(qǐng)實(shí)施例提供的另一種終端設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖并通過(guò)具體實(shí)施方式來(lái)進(jìn)一步說(shuō)明本申請(qǐng)的技術(shù)方案。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本申請(qǐng),而非對(duì)本申請(qǐng)的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本申請(qǐng)相關(guān)的部分而非全部結(jié)構(gòu)。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各步驟描述成順序的處理,但是其中的許多步驟可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各步驟的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。圖1為本申請(qǐng)實(shí)施例提供的一種聲學(xué)特征提取方法的流程示意圖,該方法可以由聲學(xué)特征提取裝置執(zhí)行,其中該裝置可以由軟件和/或硬件實(shí)現(xiàn),一般可以集成在終端設(shè)備中,也可以集成在其他安裝有操作系統(tǒng)的設(shè)備中。如圖1所示,該方法包括:S110、獲取待處理語(yǔ)音信號(hào)。其中,所述待處理語(yǔ)音信號(hào)可以是經(jīng)過(guò)預(yù)加重濾波的語(yǔ)音信號(hào),還可以是未經(jīng)過(guò)預(yù)加重濾波的語(yǔ)音信號(hào),也就是普通的語(yǔ)音信號(hào)。所述預(yù)加重濾波為對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行高通濾波處理,可以提高語(yǔ)音信號(hào)中的高頻部分,使得頻譜變得平坦。如果所述待處理語(yǔ)音信號(hào)為未經(jīng)過(guò)預(yù)加重濾波處理的語(yǔ)音信號(hào),則可以在對(duì)待處理語(yǔ)音信號(hào)進(jìn)行分幀處理后再對(duì)每一幀語(yǔ)音數(shù)據(jù)塊進(jìn)行預(yù)加重濾波處理。示例性地,所述預(yù)加重濾波器的響應(yīng)公式可以是:S111、對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù)。其中,所述待處理語(yǔ)音信號(hào)一般包括一段時(shí)間區(qū)間的語(yǔ)音信號(hào),而一段時(shí)間區(qū)間中包括至少兩幀語(yǔ)音數(shù)據(jù)塊,為了方便對(duì)語(yǔ)音信號(hào)進(jìn)行后續(xù)的運(yùn)算處理,需要對(duì)待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,以得到以幀為單位的語(yǔ)音數(shù)據(jù)塊。示例性地,將待處理語(yǔ)音信號(hào)分為若干幀語(yǔ)音數(shù)據(jù)塊,每幀語(yǔ)音數(shù)據(jù)塊包括80個(gè)語(yǔ)音數(shù)據(jù)。在常規(guī)的梅爾頻率倒譜系數(shù)提取操作中,在分幀處理時(shí),每?jī)蓚€(gè)相鄰幀之間會(huì)設(shè)置一段重疊區(qū)間,如圖2所示,其中,語(yǔ)音數(shù)據(jù)塊120和語(yǔ)音數(shù)據(jù)塊121是在時(shí)域上先后的兩幀語(yǔ)音數(shù)據(jù)塊,兩者在時(shí)域上有一段區(qū)間是重疊的,所以在后續(xù)的處理過(guò)程中,該重疊部分的數(shù)據(jù)會(huì)被運(yùn)算兩次,即在對(duì)語(yǔ)音數(shù)據(jù)塊120進(jìn)行特征提取時(shí)運(yùn)算一次,在對(duì)語(yǔ)音數(shù)據(jù)塊121進(jìn)行特征提取時(shí)再運(yùn)算一次。在本申請(qǐng)實(shí)施例中的分幀處理時(shí),每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊在時(shí)域上是保持連續(xù)的,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù),如圖2中所示,其中,語(yǔ)音數(shù)據(jù)塊130、語(yǔ)音數(shù)據(jù)塊131和語(yǔ)音數(shù)據(jù)塊132是在時(shí)域上依次先后的三幀相鄰的語(yǔ)音數(shù)據(jù)塊、語(yǔ)音數(shù)據(jù)塊130在時(shí)域上保持連續(xù),語(yǔ)音數(shù)據(jù)塊130和語(yǔ)音數(shù)據(jù)塊131在時(shí)域上保持連續(xù)。常規(guī)的分幀處理中的每一幀語(yǔ)音數(shù)據(jù)塊包括160個(gè)數(shù)據(jù),兩幀相鄰的數(shù)據(jù)塊的長(zhǎng)度一共包括320個(gè)數(shù)據(jù),但是因?yàn)橹丿B的部分,實(shí)際上的有效長(zhǎng)度包括240個(gè)數(shù)據(jù),但是在后續(xù)運(yùn)算中需要對(duì)320個(gè)數(shù)據(jù)進(jìn)行運(yùn)算。而本申請(qǐng)實(shí)施例中的每一個(gè)語(yǔ)音數(shù)據(jù)塊包括80個(gè)數(shù)據(jù),三個(gè)連續(xù)的數(shù)據(jù)塊一共包括240個(gè)數(shù)據(jù),有效長(zhǎng)度也是240個(gè)數(shù)據(jù),所以在后續(xù)運(yùn)算中只需要對(duì)240個(gè)數(shù)據(jù)進(jìn)行運(yùn)算,從而可以降低后續(xù)運(yùn)算處理中的運(yùn)算量。S112、對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜。其中,所述加窗處理為對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行濾波處理,將每幀數(shù)據(jù)塊乘以漢明窗,以增加兩幀連續(xù)的數(shù)據(jù)塊的先后的連續(xù)性。示例性地,所述漢明窗為:傅里葉變換用于將語(yǔ)音數(shù)據(jù)塊從時(shí)域轉(zhuǎn)換為頻域,以得到語(yǔ)音信號(hào)在不同頻率上的分布情況,即語(yǔ)音能量譜。加窗處理和傅里葉變化處理的具體實(shí)施方式可以參考現(xiàn)有技術(shù),在此不再贅述。S113、將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種聲學(xué)特征提取方法,其特征在于,包括:獲取待處理語(yǔ)音信號(hào);對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。
【技術(shù)特征摘要】
1.一種聲學(xué)特征提取方法,其特征在于,包括:獲取待處理語(yǔ)音信號(hào);對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀處理,得到以幀為單位的連續(xù)的語(yǔ)音數(shù)據(jù)塊,其中,每?jī)蓚€(gè)相鄰幀的語(yǔ)音數(shù)據(jù)塊中,前一幀的語(yǔ)音數(shù)據(jù)塊中的最后一個(gè)數(shù)據(jù)和后一幀的語(yǔ)音數(shù)據(jù)塊中的第一個(gè)數(shù)據(jù)在時(shí)域上保持連續(xù);對(duì)所述語(yǔ)音數(shù)據(jù)塊進(jìn)行加窗處理和傅里葉變換處理,以得到語(yǔ)音能量譜;將所述語(yǔ)音能量譜通過(guò)梅爾濾波器組,以得到梅爾頻譜數(shù)據(jù);根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)。2.如權(quán)利要求1所述的方法,其特征在于,所述梅爾濾波器組為矩形濾波器組,所述矩形濾波器組中的每個(gè)矩形濾波器的中心頻率在梅爾頻率上依次等間隔排列,每個(gè)矩形濾波器的在頻域上的寬度和對(duì)應(yīng)的梅爾頻率區(qū)間對(duì)應(yīng)。3.如權(quán)利要求2所述的方法,其特征在于,所述矩形濾波器組的中心頻率在頻域和梅爾頻率的映射關(guān)系符合如下公式:其中,所述f為頻域上的頻率,所述Mel(f)為梅爾頻率。4.如權(quán)利要求2所述的方法,其特征在于,所述矩形濾波器組的每個(gè)矩形濾波器的幅值均相同。5.如權(quán)利要求4所述的方法,其特征在于,所述矩形濾波器的幅值為1。6.如權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,根據(jù)所述梅爾頻譜數(shù)據(jù)確定梅爾頻率倒譜系數(shù)包括:對(duì)所述梅爾頻譜數(shù)據(jù)進(jìn)行離散余弦變換,以確定梅爾頻率倒譜系數(shù),其中,每一幀的離散余...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳巖,
申請(qǐng)(專利權(quán))人:OPPO廣東移動(dòng)通信有限公司,
類型:發(fā)明
國(guó)別省市:廣東,44
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。