• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音合成方法和裝置制造方法及圖紙

    技術編號:36030104 閱讀:20 留言:0更新日期:2022-12-21 10:30
    本申請實施例公開了一種語音合成方法及裝置,包括:獲取文本數據和文本數據對應的音高數據,文本數據中包含多個文本,音高數據表征每個文本對應的音高;對文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;對多個文本進行時長預測,得到每個文本的預測時長,預測時長表征該文本對應的幀數;將文本特征數據和音高特征數據進行合并,得到第一特征數據;利用每個文本的預測時長對第一特征數據進行時長擴充,得到第二特征數據;對第二特征數據進行解碼,得到語音譜參數,并將語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。目標語音。目標語音。

    【技術實現步驟摘要】
    一種語音合成方法和裝置


    [0001]本申請涉及數據處理、深度學習及語音合成
    ,尤其涉及一種語音合成方法和裝置。

    技術介紹

    [0002]目前根據文本合成歌曲的方法有兩種。一種是利用隱馬爾科夫模型合成歌曲,由于隱馬爾科夫模型未考慮音高特征,導致合成的歌曲的聲音缺乏情感。另一種是利用現有的神經網絡模型合成歌曲,但是由于考慮的特征的維度過少,導致模型出現過擬合,合成的歌曲不夠穩定和真實。

    技術實現思路

    [0003]本申請提供一種語音合成方法和裝置,以解決上述的技術問題。
    [0004]為此,本申請實施例一方面提供一種語音合成方法,所述方法包括:
    [0005]獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;
    [0006]對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;
    [0007]對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;
    [0008]將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;
    [0009]利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;
    [0010]對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。
    [0011]其中,所述將所述文本特征數據和音高特征數據進行合并,包括:
    [0012]從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;
    [0013]根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;
    [0014]將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。
    [0015]其中,所述利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據,包括:
    [0016]從所述第一特征數據中確定出每個文本對應的第一子特征數據;
    [0017]按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;
    [0018]將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到
    第二特征數據。
    [0019]其中,所述得到第二特征數據之后,還包括:
    [0020]從所述第二特征數據中確定出每個文本對應的第二子特征數據;
    [0021]對所有第二子特征數據進行遍歷;
    [0022]確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;
    [0023]根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;
    [0024]在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0025]本申請實施例另一方面提供一種語音合成模型訓練方法,所述方法包括:
    [0026]獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;
    [0027]將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    [0028]根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;
    [0029]根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。
    [0030]本申請實施例另一方面提供一種語音合成裝置,所述裝置包括:
    [0031]第一采集模塊,用于獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;
    [0032]編碼模塊,用于對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;
    [0033]第一深度學習模塊,用于對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;
    [0034]計算模塊,用于將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;
    [0035]所述第一深度學習模塊,還用于利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;
    [0036]解碼模塊,用于對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。
    [0037]其中,所述計算模塊,還用于從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;
    [0038]所述計算模塊,還用于根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;
    [0039]所述計算模塊,還用于將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。
    [0040]其中,所述第一深度學習模塊,還用于從所述第一特征數據中確定出每個文本對應的第一子特征數據;
    [0041]所述第一深度學習模塊,還用于按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;
    [0042]所述第一深度學習模塊,還用于將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0043]其中,所述第一深度學習模塊,還用于從所述第二特征數據中確定出每個文本對應的第二子特征數據;
    [0044]所述第一深度學習模塊,還用于對所有第二子特征數據進行遍歷;
    [0045]所述第一深度學習模塊,還用于確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;
    [0046]所述第一深度學習模塊,還用于根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;
    [0047]所述第一深度學習模塊,還用于在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。
    [0048]本申請實施例另一方面提供一種語音合成模型訓練裝置,所述裝置包括:
    [0049]第二采集模塊,用于獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;
    [0050]第二深度學習模塊,用于將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    [0051]所述第二深度學習模塊,還用于根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;
    [0052]所述第二深度學習模塊,還用于根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。
    [0053]在上述的方案中,通過本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種語音合成方法,其特征在于,所述方法包括:獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;對所述文本數據和音高數據進行編碼,得到文本特征數據和音高特征數據;對所述多個文本進行時長預測,得到每個文本的預測時長,所述預測時長表征該文本對應的幀數;將所述文本特征數據和音高特征數據進行合并,得到第一特征數據;利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據;對所述第二特征數據進行解碼,得到語音譜參數,并將所述語音譜參數輸入預訓練的神經網絡聲碼器,生成并得到目標語音。2.根據權利要求1所述語音合成方法,其特征在于,所述將所述文本特征數據和音高特征數據進行合并,包括:從所述文本特征數據和音高特征數據中確定出每個文本對應的文本子特征數據和音高子特征數據;根據所述文本的文本子特征數據和音高子特征數據確定該文本的第一子特征數據;將所有第一子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第一特征數據。3.根據權利要求1所述語音合成方法,其特征在于,所述利用所述每個文本的預測時長對所述第一特征數據進行時長擴充,得到第二特征數據,包括:從所述第一特征數據中確定出每個文本對應的第一子特征數據;按照所述文本的預測時長將該文本對應的第一子特征數據擴充到該預測時長所指示的幀數,得到第二子特征數據;將所述第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。4.根據權利要求1所述語音合成方法,其特征在于,所述得到第二特征數據之后,還包括:從所述第二特征數據中確定出每個文本對應的第二子特征數據;對所有第二子特征數據進行遍歷;確定當前第二子特征數據與其他每個第二子特征數據的相似度,并根據所述相似度確定權重;根據當前第二子特征數據、所有其他第二子特征數據和當前第二子特征數據其他每個第二子特征數據的權重對當前第二子特征數據進行調整;在遍歷完所有第二子特征數據后,將所有調整后的第二子特征數據按照對應的文本在所述文本數據中的順序進行合并,得到第二特征數據。5.一種語音合成模型訓練方法,其特征在于,包括:獲取多個文本樣本數據和每個文本樣本數據對應的標簽語音譜參數;將所述文本樣本數據輸入初始語音合成模型,得到所述文本樣本數據的預測特征數據;
    根據所述文本樣本數據的標簽語音譜參數和預測語音譜參數確定所述文本樣本數據的損失值;根據所述多個文本樣本數據的損失值對所述初始語音合成模型進行優化,得到語音合成模型。6.一種語音合成裝置,其特征在于,所述裝置包括:第一采集模塊,用于獲取文本數據和所述文本數據對應的音高數據,所述文本數據中包含多個文本,所述音高數據表征每個文本對應的音高;編碼...

    【專利技術屬性】
    技術研發人員:江明奇王瑞陳云琳葉順平
    申請(專利權)人:問問智能信息科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕人妻无码一夲道| 亚洲AV无码成人专区| 亚洲精品午夜无码专区| 国产在线精品无码二区二区| 天堂一区人妻无码| 亚洲色偷拍区另类无码专区| 无码国产69精品久久久久网站| 国产午夜鲁丝片AV无码| 亚洲AV无码码潮喷在线观看| 无码人妻精品一区二区三区久久久| 亚洲AV无码一区东京热久久 | 久久AV无码精品人妻糸列| 西西人体444www大胆无码视频| 亚洲国产AV无码专区亚洲AV| 亚洲午夜无码AV毛片久久| 亚洲av永久无码天堂网| 国产精品无码a∨精品| 亚欧无码精品无码有性视频| 亚洲av无码一区二区三区人妖| 亚洲AV无码一区二区二三区软件| 无码人妻久久一区二区三区蜜桃 | 激情无码亚洲一区二区三区| 亚洲av无码一区二区三区不卡| 一本大道久久东京热无码AV| 久久人午夜亚洲精品无码区| 久久ZYZ资源站无码中文动漫| 午夜亚洲AV日韩AV无码大全 | 熟妇人妻中文字幕无码老熟妇| 人妻AV中出无码内射| 国产精品无码专区在线播放| 国产精品无码一区二区在线观| 亚洲av无码专区国产不乱码 | 欲色aV无码一区二区人妻| 无码国产乱人伦偷精品视频| 久久久久无码国产精品一区| 无码人妻久久一区二区三区免费| 国产精品99久久久精品无码 | 惠民福利中文字幕人妻无码乱精品 | 一本色道无码不卡在线观看| 97无码人妻福利免费公开在线视频| 免费无码又爽又刺激网站直播|