當(dāng)前位置: 首頁(yè) > 專利查詢>科大訊飛股份有限公司專利>正文

視頻生成方法、視頻生成裝置、設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44414279 閱讀：7 留言：0更新日期：2025-02-25 10:29

本申請(qǐng)?zhí)岢鲆环N視頻生成方法、視頻生成裝置、視頻生成設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)。所述視頻生成方法包括：獲取若干模態(tài)的輸入數(shù)據(jù)；提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征；將若干單模態(tài)特征映射到同一維度的潛在表示空間，獲取若干潛在模態(tài)特征；將所述若干潛在模態(tài)特征融合，得到融合模態(tài)特征；利用所述融合模態(tài)特征，生成目標(biāo)視頻。通過(guò)上述視頻生成方法，利用映射到同一維度的潛在表示空間將多模態(tài)特征實(shí)現(xiàn)統(tǒng)一處理，在多模態(tài)輸入之間建立有效的融合機(jī)制，提高多模態(tài)信息之間的高效互補(bǔ)和聯(lián)合表征，有利于生成目標(biāo)視頻的準(zhǔn)確性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及視頻生成，特別是涉及一種視頻生成方法、視頻生成裝置、視頻生成設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、現(xiàn)有的視頻生成技術(shù)大多依賴于單一模態(tài)輸入，如圖像或文本描述，難以生成高度一致且復(fù)雜的視頻內(nèi)容。同時(shí)，多模態(tài)信息之間存在較大差異，如何有效融合各類模態(tài)信息以生成連貫、自然且與輸入模態(tài)高度相關(guān)的視頻，是目前視頻生成技術(shù)中的一個(gè)重要挑戰(zhàn)。近年來(lái)，深度學(xué)習(xí)技術(shù)在生成領(lǐng)域取得了顯著進(jìn)展，尤其是基于擴(kuò)散模型的視頻生成模型。然而，現(xiàn)有方法在處理多模態(tài)輸入時(shí)仍存在多模態(tài)融合困難，融合效果差，導(dǎo)致生成的視頻效果較差的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)岢隽艘环N視頻生成方法、視頻生成裝置、視頻生成設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)。

2、為解決上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)岢隽艘环N視頻生成方法，所述視頻生成方法包括：

3、獲取若干模態(tài)的輸入數(shù)據(jù)；

4、提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征；

5、將若干單模態(tài)特征映射到同一維度的潛在表示空間，獲取若干潛在模態(tài)特征；

6、將所述若干潛在模態(tài)特征融合，得到融合模態(tài)特征；

7、利用所述融合模態(tài)特征，生成目標(biāo)視頻。

8、其中，所述將所述若干潛在模態(tài)特征融合，得到融合模態(tài)特征，包括：

9、利用跨模態(tài)注意力機(jī)制提取所述若干潛在模態(tài)特征的相關(guān)性信息；

10、根據(jù)所述相關(guān)性信息將所述若干潛在模態(tài)特征進(jìn)行融合，得到所述融合模態(tài)特征。

11、其中，所述

12、基于所述若干模態(tài)的輸入數(shù)據(jù)，確定視頻場(chǎng)景；

13、根據(jù)所述視頻場(chǎng)景以及所述若干單模態(tài)特征，獲取動(dòng)態(tài)權(quán)重；

14、根據(jù)所述相關(guān)性信息和所述動(dòng)態(tài)權(quán)重將所述若干潛在模態(tài)特征進(jìn)行融合，得到所述融合模態(tài)特征。

15、其中，所述視頻生成方法，還包括：

16、提取每一單模態(tài)特征的時(shí)間序列信息；

17、基于所述時(shí)間序列信息獲取所述單模態(tài)特征的時(shí)序特征；

18、根據(jù)所述若干單模態(tài)特征的時(shí)序特征對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊；

19、所述利用所述融合模態(tài)特征，生成目標(biāo)視頻，包括：

20、利用所述融合模態(tài)特征以及對(duì)齊后的時(shí)間序列信息，生成所述目標(biāo)視頻。

21、其中，所述根據(jù)所述若干單模態(tài)特征的時(shí)序特征對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊，包括：

22、獲取所述若干單模態(tài)特征的時(shí)序特征與當(dāng)前生成視頻幀特征的相似度；

23、按照最小化相似度的方式對(duì)所述若干單模態(tài)特征的時(shí)間序列信息進(jìn)行對(duì)齊。

24、其中，所述利用所述融合模態(tài)特征以及對(duì)齊后的時(shí)間序列信息，生成所述目標(biāo)視頻，包括：

25、在每個(gè)生成步長(zhǎng)，將所述融合模態(tài)特征和所述對(duì)齊后的時(shí)間序列信息輸入擴(kuò)散模型，生成每個(gè)生成步長(zhǎng)的視頻幀；

26、將所有生成步長(zhǎng)的視頻幀組合成為所述目標(biāo)視頻。

27、其中，所述利用所述融合模態(tài)特征，生成目標(biāo)視頻，包括：

28、利用所述融合模態(tài)特征，生成原始視頻；

29、通過(guò)超分辨率模塊對(duì)所述原始視頻的各視頻幀進(jìn)行分辨率提升，根據(jù)分辨率提升后的視頻幀生成所述目標(biāo)視頻。

30、為解決上述技術(shù)問(wèn)題，本申請(qǐng)還提出一種視頻生成裝置，所述視頻生成裝置包括：輸入模塊、提取模塊、映射模塊、融合模塊、生成模塊；其中，

31、所述輸入模塊，用于獲取若干模態(tài)的輸入數(shù)據(jù)；

32、所述提取模塊，用于提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征；

33、所述映射模塊，用于將若干單模態(tài)特征映射到同一維度的潛在表示空間，獲取若干潛在模態(tài)特征；

34、所述融合模塊，用于將所述若干潛在模態(tài)特征融合，得到融合模態(tài)特征；

35、所述生成模塊，用于利用所述融合模態(tài)特征，生成目標(biāo)視頻。

36、為解決上述技術(shù)問(wèn)題，本申請(qǐng)還提出一種視頻生成設(shè)備，所述視頻生成設(shè)備包括存儲(chǔ)器以及與所述存儲(chǔ)器耦接的處理器；其中，所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù)，所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)如上述的視頻生成方法。

37、為解決上述技術(shù)問(wèn)題，本申請(qǐng)還提出一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)用于存儲(chǔ)程序數(shù)據(jù)，所述程序數(shù)據(jù)在被計(jì)算機(jī)執(zhí)行時(shí)，用以實(shí)現(xiàn)上述的視頻生成方法。

38、與現(xiàn)有技術(shù)相比，本申請(qǐng)的有益效果是：視頻生成裝置獲取若干模態(tài)的輸入數(shù)據(jù)；提取每一種模態(tài)輸入數(shù)據(jù)的單模態(tài)特征；將若干單模態(tài)特征映射到同一維度的潛在表示空間，獲取若干潛在模態(tài)特征；將所述若干潛在模態(tài)特征融合，得到融合模態(tài)特征；利用所述融合模態(tài)特征，生成目標(biāo)視頻。通過(guò)上述視頻生成方法，利用映射到同一維度的潛在表示空間將多模態(tài)特征實(shí)現(xiàn)統(tǒng)一處理，在多模態(tài)輸入之間建立有效的融合機(jī)制，提高多模態(tài)信息之間的高效互補(bǔ)和聯(lián)合表征，有利于生成目標(biāo)視頻的準(zhǔn)確性。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種視頻生成方法，其特征在于，所述視頻生成方法包括：

2.根據(jù)權(quán)利要求1所述的視頻生成方法，其特征在于，

3.根據(jù)權(quán)利要求2所述的視頻生成方法，其特征在于，

4.根據(jù)權(quán)利要求1所述的視頻生成方法，其特征在于，

5.根據(jù)權(quán)利要求4所述的視頻生成方法，其特征在于，

6.根據(jù)權(quán)利要求4所述的視頻生成方法，其特征在于，

7.根據(jù)權(quán)利要求1或6所述的視頻生成方法，其特征在于，

8.一種視頻生成裝置，其特征在于，所述視頻生成裝置包括：輸入模塊、提取模塊、映射模塊、融合模塊、生成模塊；其中，

9.一種視頻生成設(shè)備，其特征在于，所述視頻生成設(shè)備包括存儲(chǔ)器以及與所述存儲(chǔ)器耦接的處理器；

10.一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)用于存儲(chǔ)程序數(shù)據(jù)，所述程序數(shù)據(jù)在被計(jì)算機(jī)執(zhí)行時(shí)，用以實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的視頻生成方法。

【技術(shù)特征摘要】

1.一種視頻生成方法，其特征在于，所述視頻生成方法包括：

2.根據(jù)權(quán)利要求1所述的視頻生成方法，其特征在于，

3.根據(jù)權(quán)利要求2所述的視頻生成方法，其特征在于，

4.根據(jù)權(quán)利要求1所述的視頻生成方法，其特征在于，

5.根據(jù)權(quán)利要求4所述的視頻生成方法，其特征在于，

6.根據(jù)權(quán)利要求4所述的視頻生成方法，其特征在于，

7.根據(jù)權(quán)利要求1或6所述的視頻...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李超龍，何山，周良，殷保才，殷兵，
申請(qǐng)(專利權(quán))人：科大訊飛股份有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)