• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種語音驅(qū)動主播口型和表情同步的智能生成方法技術

    技術編號:45078865 閱讀:21 留言:0更新日期:2025-04-25 18:19
    本發(fā)明專利技術公開了一種語音驅(qū)動主播口型和表情同步的智能生成方法,對主播播報視頻進行處理,預先訓練音頻?圖像同步模型和圖像?表情同步模型,使用預訓練的音頻?圖像同步模型和圖像?表情同步模型作為生成模型損失函數(shù),使用對抗生成網(wǎng)絡訓練語音和圖像之間的映射關系得到生成模型,輸入音頻和參考圖像/視頻到生成模型,生成與音頻同步口型和表情的主播播報視頻。主播播報視頻標注了快樂、熱情、興奮、悲傷、憤怒、緊急、中性的情感,通過預訓練圖像?表情同步模型,使在使用對抗生成網(wǎng)絡的生成模型同步生成圖像時會根據(jù)音頻的情感調(diào)整口型和面部表情;從而實現(xiàn)能夠快速生成口型清晰、能夠通過表情表達情感的口型同步視頻。

    【技術實現(xiàn)步驟摘要】

    本專利技術涉及數(shù)字人生成領用,具體是一種語音驅(qū)動主播口型和表情同步的智能生成方法


    技術介紹

    1、隨著人工智能技術的迅猛發(fā)展,語音驅(qū)動說話數(shù)字人視頻生成技術已成為虛擬數(shù)字人領域的研究前沿。說話數(shù)字人利用輸入的音頻信息,以及一張包含目標人物特征的圖像或視頻片段,通過信息提取,語義擴充、融合和對齊等步驟,生成一段目標人物自然表達這些信息的視頻。這一技術的核心在于多模態(tài)數(shù)據(jù)的融合和呈現(xiàn),旨在以直觀的視覺形式展現(xiàn)目標人物的語音內(nèi)容。

    2、同時,隨著抖音、小紅書、bilibili等多種社交媒體的普及,說話數(shù)字人的應用領域得到了極大的擴展和深化。這些平臺為說話數(shù)字人提供了展示和互動的新舞臺,只需準備一段需要播報的內(nèi)容、一段包含人物的圖像或視頻片段,使用數(shù)字人合成功能就能獲得一段數(shù)字人播報視頻,大大減少了人工播報和剪輯的成本。

    3、在數(shù)字人生成的技術中,語音驅(qū)動口型同步技術對提升數(shù)字人的真實感和自然度至關重要;對于知識傳播來說,使用視頻進行知識傳播,對學習者來說吸引力更大;其中使用專業(yè)虛擬主播形象進行內(nèi)容的播報,可以塑造專業(yè)的形象,提升個人品牌,提升內(nèi)容的權威性和可靠性,同時能提高信息的傳播效果。在使用專業(yè)的虛擬主播形象進行內(nèi)容的播報時,現(xiàn)有的虛擬主播的語音和口型同步技術并不是很專業(yè)。

    4、主播為了能讓每個字的發(fā)音都清晰可辨,會更加注重口型的清晰度,會使口型看起來更夸張或有意識的控制。

    5、因為主播需要視覺上和觀眾溝通,在表達不同的情感時,會使用不同的口型和面部表情表達快樂、熱情、興奮、悲傷、憤怒、緊急、中性等情感。

    6、早期的說話數(shù)字人生成技術主要依靠計算機圖形學和傳統(tǒng)的機器學習技術。但是這類技術生成的視頻質(zhì)量很差,合成痕跡明顯。

    7、借助于深度學習網(wǎng)絡的發(fā)展,在現(xiàn)有的語音驅(qū)動說話數(shù)字人技術中,主要分三類:生成對抗模型、擴散模型和神經(jīng)輻射場。

    8、(1)生成對抗模型因其獨特的對抗訓練機制,使得生成的數(shù)字人圖像在真實性和多樣性上取得顯著的成果,提高了數(shù)字人的逼真度,并賦予了豐富的面部表情和姿態(tài)變化。代表性的技術實現(xiàn)有styletalker、video_retalking、sadtalker。

    9、(2)擴散模型通過模擬擴散和逆擴散過程來生成數(shù)據(jù),其能生成高質(zhì)量、多樣化的數(shù)字人圖像。并且具有較好的魯棒性和可控性。在定制方面,可以事項數(shù)字人的精確控制,滿足不同用戶的需求。代表性的技術實現(xiàn)有difftalker、dreamtalker、emo、vasa-1。

    10、(3)神經(jīng)輻射場方法則通過神經(jīng)網(wǎng)絡對三維場景進行編碼和渲染,為數(shù)字人生成提供了三維化的解決方案。通過對數(shù)字人三維場景的精確重建和渲染,使得生成的數(shù)字人具有更加真實的三維感覺和立體感。在虛擬現(xiàn)實和增強現(xiàn)實領域,其是的數(shù)字人能夠更好地融入虛擬世界,為用戶帶來沉浸式的體驗。在時尚產(chǎn)業(yè)中虛擬試衣、虛擬化妝同樣也有很好的應用。代表性的技術實現(xiàn)有ad-nerf、geneface、er-nerf、gaussiantalker。

    11、受益于深度學習為基礎的人工智能技術的迅速發(fā)展,當前的說話數(shù)字視頻生成技術已經(jīng)取得了顯著的進展,但仍然面臨許多挑戰(zhàn)。

    12、1、提升生成視頻的細節(jié)質(zhì)量;目前嘴型和頭部動作表現(xiàn)較好,但是人物的動作、表情、眼神顯得呆板,缺乏生動感。具有視聽一致性的唇部運動對于說話數(shù)字人十分重要,然后當前的研究對隱性特征,如眼睛和情感特征關注比較少。

    13、2、降低計算復雜度;當前大多數(shù)模型生成的速度過慢,擴散模型基于逐幀視頻生成的方式,導致時間復雜度更高。人機交互類的虛擬人的要求數(shù)字人具備多模態(tài)信息,如自然語言、面部表情和自然的類人手勢。同時,在接收到語音請求時需迅速提供高質(zhì)量的視頻反饋,因此及時響應對改善用戶體驗至關重要。

    14、3、構建高質(zhì)量數(shù)據(jù)集;實驗室收集的數(shù)據(jù)受成本限制規(guī)模有限,而社交媒體上的數(shù)據(jù)集良莠不齊,缺乏細粒度的標注。

    15、4、增加全面的評估指標;主觀上由人來評估,會存在顯著的個體差異。目前客觀的指標,如psnr、ssim,一方面無法很好的解釋人類的感知,另一方面更多局限于圖像層面的視頻質(zhì)量評估,缺乏對視頻內(nèi)容的連貫性、人物表情的動作自然性的有效評估方式。


    技術實現(xiàn)思路

    1、為了解決上述問題,本專利技術提供了一種語音驅(qū)動主播口型和表情同步的智能生成方法,該方法從數(shù)據(jù)集的角度出發(fā),使用主播數(shù)據(jù)集,經(jīng)過細粒度篩選和標注,從而豐富了數(shù)字人口型同步領域的數(shù)據(jù)集,優(yōu)化了在主播領域生成的視頻的口型不清晰的問題;同時在播報視頻中加入了快樂、熱情、興奮、悲傷、憤怒、緊急、中性的情感因素,使在同步生成圖像時會根據(jù)音頻的情感音素調(diào)整口型和面部表情;通過預訓練圖像-表情同步模型,使在使用對抗生成網(wǎng)絡的生成模型同步生成圖像時會根據(jù)音頻的情感調(diào)整口型和面部表情;從而實現(xiàn)能夠快速生成口型清晰、能夠通過表情表達情感的口型同步視頻。

    2、本專利技術提出的一種語音驅(qū)動主播口型和表情同步的智能生成方法,包括以下步驟:

    3、第1步:收集主播播報視頻,對主播播報視頻進行預處理得到預處理后的視頻;

    4、第2步:對從第1步獲得的預處理后的視頻中抽取音頻文件和帶情感標簽的視頻幀圖像序列;

    5、第3步:從第2步獲得的音頻文件中獲取音頻特征,從第2步獲得的帶情感標簽的視頻幀圖像序列獲取帶情感標簽的圖像特征,將音頻特征與帶情感標簽的圖像特征進行配對,形成一個同步音頻-圖像對;

    6、第4步:從第2步獲得的音頻文件中獲取音頻特征,對從第2步獲得的帶情感標簽的視頻幀圖像序列去除人臉鼻子以下部分,獲取帶情感標簽的人像特征,將音頻特征與帶情感標簽的人像特征進行配對,形成一個訓練音頻-圖像對;

    7、第5步:將第3步獲得的同步音頻-圖像對輸入到音頻-圖像同步模型中,輸出音頻編碼特征和圖像編碼特征,將音頻編碼特征和圖像編碼特征輸入到音頻-圖像同步損失模塊中,經(jīng)過二元交叉熵損失計算輸出損失值,通過迭代優(yōu)化音頻-圖像同步模型的權重,得到優(yōu)化后的音頻-圖像同步模型;

    8、第6步:將第3步獲得的同步音頻-圖像對輸入到圖像-情感同步模型中,輸出圖像情感編碼特征,將圖像情感編碼特征和對應的情感標簽輸入到圖像-情感同步損失模塊中,經(jīng)過歸一化函數(shù)和多分類交叉熵損失函數(shù)計算輸出損失值,通過迭代優(yōu)化圖像-情感同步模型的權重,得到優(yōu)化后的圖像-情感同步模型;

    9、第7步:將第5步中優(yōu)化后的音頻-圖像同步模型和音頻-圖像同步損失模塊作為生成模型損失模塊的組成部分,同時將第6步中優(yōu)化后的圖像-情感同步模型和圖像-情感同步損失模塊作為生成損失模塊的組成部分;構建對抗生成網(wǎng)絡,所述的對抗生成網(wǎng)絡包含生成模型和判別模型,所述的生成模型包括:音頻編碼器、圖像編碼器、圖像解碼器和生成損失模塊,所述的音頻編碼器、圖像編碼器的輸出端并列連接到所述圖像解碼器的輸入端,所述的生成損失模塊的輸入端與所述圖像解碼器的輸出本文檔來自技高網(wǎng)...

    【技術保護點】

    1.一種語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,包括以下步驟:

    2.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第1步中,對主播播報視頻進行預處理,具體包括:

    3.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第2步中,對從第1步獲得的預處理后的視頻中抽取音頻文件和帶情感標簽的視頻幀圖像序列,具體包括:

    4.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第7步中,所述的生成模型包括:音頻編碼器、圖像編碼器、圖像解碼器和生成損失模塊,所述的音頻編碼器、圖像編碼器的輸出端并列連接到所述圖像解碼器的輸入端,所述的生成損失模塊的輸入端與所述圖像解碼器的輸出端連接,所述的生成損失模塊采用第5步得到的優(yōu)化后的音頻-圖像同步模型、第6步得到的優(yōu)化后的圖像-情感同步模型以及L1范數(shù)函數(shù)。

    5.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第7步中,所述的判別模型包括:依次連接的面部解碼器和判別損失模塊,所述的判別損失模塊采用二元交叉熵損失函數(shù)。

    ...

    【技術特征摘要】

    1.一種語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,包括以下步驟:

    2.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第1步中,對主播播報視頻進行預處理,具體包括:

    3.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第2步中,對從第1步獲得的預處理后的視頻中抽取音頻文件和帶情感標簽的視頻幀圖像序列,具體包括:

    4.根據(jù)權利要求1所述的語音驅(qū)動主播口型和表情同步的智能生成方法,其特征在于,第7步中,所述的...

    【專利技術屬性】
    技術研發(fā)人員:俞定國楊子葉張隨雨徐垚林強傅議萱馬婷
    申請(專利權)人:浙江傳媒學院
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码中文字幕日韩专区视频 | 亚洲综合久久精品无码色欲| 伊人久久无码精品中文字幕| 亚洲av无码专区在线观看素人| 国产99久久九九精品无码| 国产成人无码AⅤ片在线观看| 免费看成人AA片无码视频羞羞网| 无码精品蜜桃一区二区三区WW| 亚洲av成人无码久久精品 | 亚洲日韩国产精品无码av| 久久精品亚洲中文字幕无码麻豆| 真人无码作爱免费视频| 91精品国产综合久久四虎久久无码一级| 免费无码又爽又黄又刺激网站| 久久久久亚洲AV无码专区体验| 亚洲一本大道无码av天堂| 91久久精品无码一区二区毛片| 久久久久久无码国产精品中文字幕 | 18禁无遮挡无码网站免费| 亚洲欧洲日产国码无码网站| 亚洲爆乳无码精品AAA片蜜桃| 无码人妻精品一区二区三区东京热| 免费无码国产在线观国内自拍中文字幕 | 永久无码精品三区在线4| 无码人妻精品一区二区三区蜜桃| 国精无码欧精品亚洲一区| 免费无码午夜福利片69| 无码av中文一区二区三区桃花岛| 亚洲中文字幕无码久久2020| 无码人妻精品一区二区三区在线| 最新国产精品无码| 久久久91人妻无码精品蜜桃HD| 无码人妻AⅤ一区二区三区水密桃| 亚洲av无码专区在线观看下载| 人妻丰满熟妇AV无码片| 精品无码日韩一区二区三区不卡| 久久久久久亚洲AV无码专区| 91久久精品无码一区二区毛片 | 久久男人Av资源网站无码软件| 亚洲Av永久无码精品三区在线 | 一本一道AV无码中文字幕|