• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種聲音轉換方法及裝置制造方法及圖紙

    技術編號:12618280 閱讀:117 留言:0更新日期:2015-12-30 15:27
    本發明專利技術公開了一種聲音轉換方法及裝置,該方法包括:接收待轉換語音數據;對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信息;獲取目標發音人的語音合成模型;利用所述語音合成模型及所述時長信息生成語音合成參數;利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成語音數據。利用本發明專利技術,可以使轉換后的語音數據的時長與待轉換語音數據的時長一致,提高合成語音的自然度。

    【技術實現步驟摘要】

    本專利技術涉及語音信號處理
    ,具體涉及一種聲音轉換方法及裝置
    技術介紹
    在日常的生活交流中,一個人的聲音往往就是他的身份名片,聽到自己熟悉人的 聲音后,就可辨認出這個人。聲音轉換技術由于可以將一個發音人的聲音轉換為另一個發 音人的聲音,使人聽起來像是另一個人的發音,有著廣泛的應用前景,如用戶可以將自己的 聲音轉換成自己喜歡的明星的聲音,或轉換成用戶自己熟悉人的聲音。 現有的聲音轉換方法一般是將待轉換語音數據進行語音識別,得到識別文本后, 利用目標發音人合成模型對所述識別文本進行語音合成,從而得到目標發音人音色的合成 語音數據。這種方法對識別文本進行語音合成時,容易出現合成的語音數據與待轉換語音 數據的時長不一致的情況,從而使合成語音聽起來較機械,韻律感差,大大降低了合成語音 的自然度。
    技術實現思路
    本專利技術提供一種聲音轉換方法及裝置,以使轉換后的語音數據的時長與待轉換語 音數據的時長一致,提高合成語音的自然度。 為此,本專利技術提供如下技術方案: 一種聲音轉換方法,包括: 接收待轉換語音數據; 對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信 息; 獲取目標發音人的語音合成模型; 利用所述語音合成模型及所述時長信息生成語音合成參數; 利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成 語音數據。 優選地,所述對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結 果的時長信息包括: 利用預先訓練的聲學模型及語言模型構建解碼網絡; 提取所述待轉換語音數據的特征參數; 基于所述解碼網絡及所述特征參數對所述待轉換語音數據進行解碼,得到最優解 碼路徑對應的文本序列及所述文本序列中各字和/或詞的時長信息。 優選地,所述對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結 果的時長信息包括: 利用預先訓練的聲學模型及語言模型構建解碼網絡; 提取所述待轉換語音數據的特征參數; 基于所述解碼網絡及所述特征參數對所述待轉換語音數據進行解碼,得到最優解 碼路徑對應的語法單元序列及所述語法單元序列中各語法單元的時長信息。 優選地,所述獲取目標發音人的語音合成模型包括: 向用戶展現可選的目標發音人信息,并根據用戶的選擇確定目標發音人,然后獲 取所述目標發音人的語音合成模型;或者 接收用戶提供的目標發音人語音數據,并利用所述目標發音人語音數據訓練得到 目標發音人的語音合成模型。 優選地,所述目標發音人合成模型包括:時長合成模型、基頻合成模型、頻譜合成 豐旲型; 所述利用所述語音合成模型及所述時長信息生成語音合成參數包括: 利用所述時長信息及所述時長合成模型生成每個語法單元每個狀態的時長合成 參數; 利用目標發音人基頻合成模型生成基頻合成參數; 利用目標發音人頻譜合成模型生成頻譜合成參數。 -種聲音轉換裝置,包括: 接收模塊,用于接收待轉換語音數據; 語音識別模塊,用于對所述待轉換語音數據進行語音識別,得到識別結果及所述 識別結果的時長信息; 模型獲取模塊,用于獲取目標發音人的語音合成模型; 合成參數生成模塊,用于利用所述語音合成模型及所述時長信息生成語音合成參 數; 語音合成模塊,用于利用所述語音合成參數對所述識別結果進行語音合成,得到 目標發音人音色合成語音數據。 優選地,所述語音識別模塊包括: 第一解碼網絡構建單元,用于利用預先訓練的聲學模型及語言模型構建解碼網 絡; 特征提取單元,用于提取所述待轉換語音數據的特征參數; 第一解碼單元,用于基于所述解碼網絡及所述特征參數對所述待轉換語音數據進 行解碼,得到最優解碼路徑對應的文本序列及所述文本序列中各字和/或詞的時長信息。 優選地,所述語音識別模塊包括: 第二解碼網絡構建單元,用于利用預先訓練的聲學模型及語言模型構建解碼網 絡; 特征提取單元,用于提取所述待轉換語音數據的特征參數; 第二解碼單元,用于基于所述解碼網絡及所述特征參數對所述待轉換語音數據進 行解碼,得到最優解碼路徑對應的語法單元序列及所述語法單元序列中各語法單元的時長 fg息。 優選地,所述模型獲取模塊包括: 展現單元,用于向用戶展現可選的目標發音人信息;目標發音人確定單元,用于根據用戶的選擇確定目標發音人; 模型獲取單元,用于獲取所述目標發音人的語音合成模型; 或者,所述目標發音人確定模塊包括: 接收單元,用于接收用戶提供的目標發音人語音數據; 模型訓練單元,用于利用所述目標發音人語音數據訓練得到目標發音人的語音合 成模型。 優選地,所述目標發音人合成模型包括:時長合成模型、基頻合成模型、頻譜合成 模型; 所述合成參數生成模塊包括: 時長合成參數生成單元,用于利用所述時長信息及所述時長合成模型生成每個語 法單元每個狀態的時長合成參數; 基頻合成參數生成單元,用于利用目標發音人基頻合成模型生成基頻合成參數; 頻譜合成參數生成單元,用于利用目標發音人頻譜合成模型生成頻譜合成參數。 本專利技術實施例提供的聲音轉換方法及裝置,首先接收待轉換語音數據,然后對待 轉換語音數據進行語音識別,得到識別結果及其時長信息,最后利用目標發音人的語音合 成模型及所述時長信息生成語音合成參數,利用該語音合成參數對所述識別結果進行語音 合成,得到目標發音人音色合成語音數據。該方法及裝置對待轉換語音數據進行語音識別 時,不僅獲取識別結果,而且還要獲取該識別結果的時長信息,利用該時長信息生成目標發 音人的語音合成參數,有效保證了合成語音數據的時長與待轉換語音數據的時長一致,提 高了轉換后語音的自然度。【附圖說明】 為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術中記載的一 些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。圖1是本專利技術實施例聲音轉換方法的一種流程圖;圖2是本專利技術實施例聲音當前第1頁1 2 3 4 本文檔來自技高網...

    【技術保護點】
    一種聲音轉換方法,其特征在于,包括:接收待轉換語音數據;對所述待轉換語音數據進行語音識別,得到識別結果及所述識別結果的時長信息;獲取目標發音人的語音合成模型;利用所述語音合成模型及所述時長信息生成語音合成參數;利用所述語音合成參數對所述識別結果進行語音合成,得到目標發音人音色合成語音數據。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:陳凌輝江源李棟梁李嘯張衛慶胡國平
    申請(專利權)人:科大訊飛股份有限公司
    類型:發明
    國別省市:安徽;34

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻无码视频一区二区三区| 无码人妻丰满熟妇啪啪网站牛牛| 久久久久久99av无码免费网站| 亚洲av永久无码精品三区在线4| 色综合99久久久无码国产精品| 人妻丰满?V无码久久不卡| 亚洲国产成人精品无码区在线观看 | 大桥久未无码吹潮在线观看| 亚洲AV无码专区在线亚| 国产乱子伦精品免费无码专区| 无码一区二区三区免费| 成人无码A区在线观看视频| 久久人午夜亚洲精品无码区 | 日韩AV无码一区二区三区不卡毛片| 午夜无码伦费影视在线观看| 久久av高潮av无码av喷吹| 精品深夜AV无码一区二区老年| 亚洲VA中文字幕不卡无码| 久青草无码视频在线观看| 免费无遮挡无码视频网站| 亚洲av无码偷拍在线观看| 日韩人妻无码中文字幕视频| 亚洲无码高清在线观看| 无码精品人妻一区二区三区AV| 亚洲中文字幕久久精品无码VA| 台湾无码一区二区| 亚洲AV综合色区无码另类小说| 国产福利电影一区二区三区久久老子无码午夜伦不 | 亚洲精品9999久久久久无码| 亚洲av永久无码制服河南实里 | 亚洲熟妇无码AV在线播放| 亚洲AV无码一区二区三区国产| 性色AV无码中文AV有码VR| 狠狠躁狠狠爱免费视频无码| 无码一区二区波多野结衣播放搜索| 在线看片福利无码网址| 亚洲综合久久精品无码色欲| 亚洲av无码专区在线播放| 亚洲AV永久无码精品一百度影院 | 国产真人无码作爱视频免费| 亚洲人成网亚洲欧洲无码久久|