【技術實現步驟摘要】
本專利技術涉及信號處理
,尤其涉及。
技術介紹
目前,語音合成實現文字到語音的轉換,是智能人機交互的核心技術之一。基于隱馬爾科夫模型(Hidden Markov Model, HMM)的參數語音合成是現階段一種主流的語音合成方法。該方法在訓練時首先提取訓練語音數據庫中的頻譜、基頻等聲學特征,然后使用統一的HMM框架對聲學特征進行建模;在合成時,首先利用訓練得到的統計模型基于最大輸出概率準則進行各種聲學特征的預測,再將預測的聲學特征送入參數合成器重構合成語音。該方法可以合成高可懂度與流暢度的語音。但是合成語音的音質往往不夠理想,造成整體自然度欠佳。 上述傳統基于HMM參數語音合成方法在頻譜建模上的不足,是造成合成語音音質不理想的重要原因。具體來說,由于在傳統頻譜建模中使用的頻譜特征往往是一些高層的頻譜特征,例如梅爾倒譜(Mel Cepstra)、線譜對(Line Spectral Pairs)等,這些特征都是對原始語音頻譜的一種模型化或者近似化表征,在特征提取的過程中已經造成了頻譜細節信息的丟失;同時,由于傳統頻譜建模方法通常使用單高斯分布來描述HMM中每個狀態的頻譜特征輸出概率,在合成階段基于最大輸出概率準則進行頻譜特征的預測,由于單高斯分布的均值具有最大的輸出概率,因此參數生成結果很接近于模型的均值,而該均值是在訓練階段基于最大似然準則通過對訓練樣本的平均化來估計得到的,這樣造成了預測的頻譜特征往往過于平滑,從而影響了最終合成語音的音質。
技術實現思路
本專利技術的目的是提供,該方法能夠提高基于HMM的參數語音合成方法中的頻譜特征建模精度,從而改善合 ...
【技術保護點】
一種基于受限玻爾茲曼機的語音合成方法,其特征在于,所述方法包括:在模型訓練階段,使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模;利用提取的基頻和頻譜特征以及每句訓練語音對應的文本與上下文信息,依據基于隱馬爾科夫模型HMM的參數語音合成方法,進行上下文相關單高斯的HMM訓練;在單高斯的HMM訓練完成后,利用訓練得到的Gaussian?HMM模型對訓練數據庫中的聲學特征序列進行狀態切分,得到每個狀態對應的起止時間;利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據,并使用受限波爾茲曼機RBM來描述各狀態對應的頻譜包絡的分布情況;在語音合成階段,通過高斯近似進行HMM各狀態輸出概率的重估,再利用最大輸出概率參數生成算法進行每幀合成語音對應的頻譜包絡特征的預測;利用Gaussian?HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器,生成最終的合成語音。
【技術特征摘要】
1.一種基于受限玻爾茲曼機的語音合成方法,其特征在于,所述方法包括: 在模型訓練階段,使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模; 利用提取的基頻和頻譜特征以及每句訓練語音對應的文本與上下文信息,依據基于隱馬爾科夫模型HMM的參數語音合成方法,進行上下文相關單高斯的HMM訓練; 在單高斯的HMM訓練完成后,利用訓練得到的Gaussian-HMM模型對訓練數據庫中的聲學特征序列進行狀態切分,得到每個狀態對應的起止時間; 利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據,并使用受限波爾茲曼機RBM來描述各狀態對應的頻譜包絡的分布情況; 在語音合成階段,通過高斯近似進行HMM各狀態輸出概率的重估,再利用最大輸出概率參數生成算法進行每幀合成語音對應的頻譜包絡特征的預測; 利用Gaussian-HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。