• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于受限玻爾茲曼機的語音合成方法技術

    技術編號:8981119 閱讀:215 留言:0更新日期:2013-07-31 23:12
    本發明專利技術公開了一種基于受限玻爾茲曼機的語音合成方法。使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模;利用訓練得到的Gaussian-HMM模型對訓練數據庫中的聲學特征序列進行狀態切分;利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據;利用Gaussian-HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器,生成最終的合成語音。該方法能夠提高基于HMM的參數語音合成方法中的頻譜特征建模精度,從而改善合成語音的音質與自然度。

    【技術實現步驟摘要】

    本專利技術涉及信號處理
    ,尤其涉及。
    技術介紹
    目前,語音合成實現文字到語音的轉換,是智能人機交互的核心技術之一。基于隱馬爾科夫模型(Hidden Markov Model, HMM)的參數語音合成是現階段一種主流的語音合成方法。該方法在訓練時首先提取訓練語音數據庫中的頻譜、基頻等聲學特征,然后使用統一的HMM框架對聲學特征進行建模;在合成時,首先利用訓練得到的統計模型基于最大輸出概率準則進行各種聲學特征的預測,再將預測的聲學特征送入參數合成器重構合成語音。該方法可以合成高可懂度與流暢度的語音。但是合成語音的音質往往不夠理想,造成整體自然度欠佳。 上述傳統基于HMM參數語音合成方法在頻譜建模上的不足,是造成合成語音音質不理想的重要原因。具體來說,由于在傳統頻譜建模中使用的頻譜特征往往是一些高層的頻譜特征,例如梅爾倒譜(Mel Cepstra)、線譜對(Line Spectral Pairs)等,這些特征都是對原始語音頻譜的一種模型化或者近似化表征,在特征提取的過程中已經造成了頻譜細節信息的丟失;同時,由于傳統頻譜建模方法通常使用單高斯分布來描述HMM中每個狀態的頻譜特征輸出概率,在合成階段基于最大輸出概率準則進行頻譜特征的預測,由于單高斯分布的均值具有最大的輸出概率,因此參數生成結果很接近于模型的均值,而該均值是在訓練階段基于最大似然準則通過對訓練樣本的平均化來估計得到的,這樣造成了預測的頻譜特征往往過于平滑,從而影響了最終合成語音的音質。
    技術實現思路
    本專利技術的目的是提供,該方法能夠提高基于HMM的參數語音合成方法中的頻譜特征建模精度,從而改善合成語音的音質與自然度。本專利技術的目的是通過以下技術方案實現的,,所述方法包括:在模型訓練階段,使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模;利用提取的基頻和頻譜特征以及每句訓練語音對應的文本與上下文信息,依據基于隱馬爾科夫模型HMM的參數語音合成方法,進行上下文相關單高斯的HMM訓練;在單高斯的HMM訓練完成后,利用訓練得到的Gaussian-HMM模型對訓練數據庫中的聲學特征序列進行狀態切分,得到每個狀態對應的起止時間;利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據,并使用受限波爾茲曼機RBM來描述各狀態對應的頻譜包絡的分布情況;在語音合成階段,通過高斯近似進行HMM各狀態輸出概率的重估,再利用最大輸出概率參數生成算法進行每幀合成語音對應的頻譜包絡特征的預測;利用Gaussian-HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器,生成最終的合成語音。所述通過高斯近似進行HMM各狀態輸出概率的重估,具體包括:使用單高斯分布Ν(ν; μ,Σ)來擬合逼近受限波爾茲曼機RBM所描述的概率密度函數,其中高斯均值向量μ為:本文檔來自技高網...

    【技術保護點】
    一種基于受限玻爾茲曼機的語音合成方法,其特征在于,所述方法包括:在模型訓練階段,使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模;利用提取的基頻和頻譜特征以及每句訓練語音對應的文本與上下文信息,依據基于隱馬爾科夫模型HMM的參數語音合成方法,進行上下文相關單高斯的HMM訓練;在單高斯的HMM訓練完成后,利用訓練得到的Gaussian?HMM模型對訓練數據庫中的聲學特征序列進行狀態切分,得到每個狀態對應的起止時間;利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據,并使用受限波爾茲曼機RBM來描述各狀態對應的頻譜包絡的分布情況;在語音合成階段,通過高斯近似進行HMM各狀態輸出概率的重估,再利用最大輸出概率參數生成算法進行每幀合成語音對應的頻譜包絡特征的預測;利用Gaussian?HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器,生成最終的合成語音。

    【技術特征摘要】
    1.一種基于受限玻爾茲曼機的語音合成方法,其特征在于,所述方法包括: 在模型訓練階段,使用自適應加權譜內插STRAIGHT合成器提取的頻譜包絡取代高層頻譜特征用于頻譜建模; 利用提取的基頻和頻譜特征以及每句訓練語音對應的文本與上下文信息,依據基于隱馬爾科夫模型HMM的參數語音合成方法,進行上下文相關單高斯的HMM訓練; 在單高斯的HMM訓練完成后,利用訓練得到的Gaussian-HMM模型對訓練數據庫中的聲學特征序列進行狀態切分,得到每個狀態對應的起止時間; 利用切分得到的各狀態起止時間,對提取的訓練數據庫中的原始頻譜包絡特征進行切分,收集得到上下文相關HMM模型中各狀態對應的頻譜包絡數據,并使用受限波爾茲曼機RBM來描述各狀態對應的頻譜包絡的分布情況; 在語音合成階段,通過高斯近似進行HMM各狀態輸出概率的重估,再利用最大輸出概率參數生成算法進行每幀合成語音對應的頻譜包絡特征的預測; 利用Gaussian-HMM模型進行基頻特征的預測,并將預測得到的所述頻譜包絡特征與基頻特征送入STRAIGHT合成器...

    【專利技術屬性】
    技術研發人員:凌震華陳凌輝戴禮榮
    申請(專利權)人:中國科學技術大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻精品久久无码区| 一区二区无码免费视频网站| 国产精品第一区揄拍无码| 久久亚洲AV成人无码国产电影| 亚洲一级特黄大片无码毛片| 99无码人妻一区二区三区免费| 波多野结AV衣东京热无码专区| 中文字幕乱偷无码av先锋蜜桃| 国产台湾无码AV片在线观看| 亚洲精品无码久久久久秋霞 | 免费a级毛片无码av| 无码精品国产VA在线观看| 午夜无码一区二区三区在线观看| 无码人妻一区二区三区免费手机| 无码人妻精品一区二区三区东京热| 无码国模国产在线观看免费| 亚洲GV天堂GV无码男同| 无码少妇一区二区性色AV| 国产精品多人p群无码| 精品一区二区三区无码视频| 无码人妻丰满熟妇区五十路| 人妻aⅴ无码一区二区三区| 亚洲VA中文字幕无码一二三区| 精品一区二区三区无码免费直播| 无码人妻丰满熟妇区毛片| 亚洲AV无码片一区二区三区 | 东京热HEYZO无码专区| 无码一区二区三区老色鬼| 国产在线无码一区二区三区视频| 无码专区一va亚洲v专区在线 | 久久国产精品无码HDAV| 无码一区二区三区免费| 免费无码VA一区二区三区| 91久久精品无码一区二区毛片| 国产精品无码久久久久久| 亚洲AV无码欧洲AV无码网站| 无码丰满少妇2在线观看| 人妻无码αv中文字幕久久 | 亚洲AV无码国产丝袜在线观看| 亚洲中文字幕无码久久2017 | 亚洲av无码一区二区三区观看|