視覺編碼器訓(xùn)練、描述方法、裝置、設(shè)備及介質(zhì)制造方法及圖紙

技術(shù)編號：40790266 閱讀：19 留言：0更新日期：2024-03-28 19:20

本申請?zhí)峁┝艘环N視覺編碼器訓(xùn)練、描述方法、裝置、設(shè)備及介質(zhì)。在該視覺編碼器訓(xùn)練方法中，獲取包括隱患圖像及其對應(yīng)的隱患描述文本的樣本數(shù)據(jù)對；并將隱患圖像輸入到待訓(xùn)練的視覺編碼器中，視覺編碼器將隱患圖像轉(zhuǎn)換為第一文本序列；將隱患描述文本和第一文本序列輸入到語言大模型中，獲取語言大模型輸出的預(yù)測描述文本；根據(jù)預(yù)測描述文本和隱患描述文本之間的相似度，視覺編碼器及語言大模型中的參數(shù)進(jìn)行調(diào)整，從而基于訓(xùn)練完成的視覺編碼器和語言大模型能夠得到隱患圖像對應(yīng)的、更準(zhǔn)確的隱患描述文本。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請涉及模型，尤其涉及一種視覺編碼器訓(xùn)練、描述方法、裝置、設(shè)備及介質(zhì)。

技術(shù)介紹

1、在安全項(xiàng)目中，需要根據(jù)用戶采集的隱患圖像即存在安全隱患的圖像，給出對應(yīng)的隱患描述文本。相關(guān)技術(shù)中還沒有根據(jù)隱患圖像得到隱患描述文本的方案。

2、因此，如何訓(xùn)練視覺編碼器，從而基于訓(xùn)練完成的視覺編碼器得到隱患圖像對應(yīng)的、更準(zhǔn)確的隱患描述文本是亟待解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、本申請?zhí)峁┝艘环N的視覺編碼器訓(xùn)練、描述方法、裝置、設(shè)備及介質(zhì)，用于得到隱患圖像對應(yīng)的、更準(zhǔn)確的隱患描述文本。

2、第一方面，本申請?zhí)峁┝艘环N視覺編碼器訓(xùn)練方法，所述方法包括：

3、獲取樣本數(shù)據(jù)對；其中，所述樣本數(shù)據(jù)對包括隱患圖像及其對應(yīng)的隱患描述文本；

4、將所述隱患圖像輸入到待訓(xùn)練的視覺編碼器中，所述視覺編碼器將所述隱患圖像轉(zhuǎn)換為第一文本序列；

5、將所述隱患描述文本及其對應(yīng)的第一文本序列輸入到語言大模型中，所述語言大模型輸出所述第一文本序列對應(yīng)的預(yù)測描述文本；

6、根據(jù)所述預(yù)測描述文本和所述隱患描述文本之間的相似度，對所述視覺編碼器及語言大模型中的參數(shù)進(jìn)行調(diào)整。

7、在一種可能的實(shí)施方式中，所述方法還包括：

8、將所述隱患描述文本輸入到訓(xùn)練完成的文本編碼器中，獲取所述文本編碼器輸出的所述隱患描述文本對應(yīng)的第二文本序列；

9、根據(jù)所述第一文本序列和所述第二文本序列之間的相似度，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整。</p>

10、在一種可能的實(shí)施方式中，所述根據(jù)所述第一文本序列和所述第二文本序列之間的相似度，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整包括：

11、根據(jù)所述第一文本序列和所述第二文本序列以及最大化似然函數(shù)，確定所述第一文本序列和所述第二文本序列之間的損失值；

12、根據(jù)所述損失值，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整。

13、第二方面，本申請實(shí)施例提供了一種視覺描述方法，所述方法包括：

14、將隱患圖像輸入到訓(xùn)練完成的視覺編碼器中，所述視覺編碼器將所述隱患圖像轉(zhuǎn)換為第一文本序列；

15、將所述第一文本序列輸入到訓(xùn)練完成的語言大模型中，獲取所述語言大模型輸出的所述第一文本序列對應(yīng)的預(yù)測描述文本。

16、第三方面，本申請實(shí)施例提供了一種視覺編碼器訓(xùn)練裝置，所述裝置包括：

17、獲取模塊，用于獲取樣本數(shù)據(jù)對；其中，所述樣本數(shù)據(jù)對包括隱患圖像及其對應(yīng)的隱患描述文本；

18、訓(xùn)練模塊，用于將所述隱患圖像輸入到待訓(xùn)練的視覺編碼器中，所述視覺編碼器將所述隱患圖像轉(zhuǎn)換為第一文本序列；將所述隱患描述文本及其對應(yīng)的第一文本序列輸入到語言大模型中，所述語言大模型輸出所述第一文本序列對應(yīng)的預(yù)測描述文本；

19、調(diào)整模塊，用于根據(jù)所述預(yù)測描述文本和所述隱患描述文本之間的相似度，對所述視覺編碼器及語言大模型中的參數(shù)進(jìn)行調(diào)整。

20、在一種可能的實(shí)施方式中，所述訓(xùn)練模塊，還用于將所述隱患描述文本輸入到訓(xùn)練完成的文本編碼器中，獲取所述文本編碼器輸出的所述隱患描述文本對應(yīng)的第二文本序列；

21、所述調(diào)整模塊，還用于根據(jù)所述第一文本序列和所述第二文本序列之間的相似度，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整。

22、在一種可能的實(shí)施方式中，所述調(diào)整模塊，具體用于根據(jù)所述第一文本序列和所述第二文本序列以及最大化似然函數(shù)，確定所述第一文本序列和所述第二文本序列之間的損失值；根據(jù)所述損失值，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整。

23、第四方面，本申請實(shí)施例提供了一種視覺描述裝置，所述裝置包括：

24、轉(zhuǎn)換模塊，用于將隱患圖像輸入到訓(xùn)練完成的視覺編碼器中，所述視覺編碼器將所述隱患圖像轉(zhuǎn)換為第一文本序列；

25、輸出模塊，用于將所述第一文本序列輸入到訓(xùn)練完成的語言大模型中，獲取所述語言大模型輸出的所述第一文本序列對應(yīng)的預(yù)測描述文本。

26、第五方面，本申請?zhí)峁┝艘环N電子設(shè)備，所述電子設(shè)備至少包括處理器和存儲器，所述處理器用于執(zhí)行存儲器中存儲的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一所述方法的步驟。

27、第六方面，本申請?zhí)峁┝艘环N計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)內(nèi)存儲有可由電子設(shè)備執(zhí)行的計(jì)算機(jī)程序，當(dāng)所述程序在所述電子設(shè)備上運(yùn)行時(shí)，使得所述電子設(shè)備執(zhí)行如上述任一所述方法的步驟。

28、在本申請實(shí)施例中，獲取包括隱患圖像及其對應(yīng)的隱患描述文本的樣本數(shù)據(jù)對；并將隱患圖像輸入到待訓(xùn)練的視覺編碼器中，視覺編碼器將隱患圖像轉(zhuǎn)換為第一文本序列；將隱患描述文本和第一文本序列輸入到語言大模型中，獲取語言大模型輸出的預(yù)測描述文本；根據(jù)預(yù)測描述文本和隱患描述文本之間的相似度，視覺編碼器及語言大模型中的參數(shù)進(jìn)行調(diào)整，從而基于訓(xùn)練完成的視覺編碼器和語言大模型能夠得到隱患圖像對應(yīng)的、更準(zhǔn)確的隱患描述文本。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種視覺編碼器訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述第一文本序列和所述第二文本序列之間的相似度，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整包括：

4.一種視覺描述方法，其特征在于，所述方法包括：

5.一種視覺編碼器訓(xùn)練裝置，其特征在于，所述裝置包括：

6.根據(jù)權(quán)利要求5所述的裝置，其特征在于，所述訓(xùn)練模塊，還用于將所述隱患描述文本輸入到訓(xùn)練完成的文本編碼器中，獲取所述文本編碼器輸出的所述隱患描述文本對應(yīng)的第二文本序列；

7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述調(diào)整模塊，具體用于根據(jù)所述第一文本序列和所述第二文本序列以及最大化似然函數(shù)，確定所述第一文本序列和所述第二文本序列之間的損失值；根據(jù)所述損失值，對所述視覺編碼器中的參數(shù)進(jìn)行調(diào)整。

8.一種視覺描述裝置，其特征在于，所述裝置包括：

9.一種電子設(shè)備，其特征在于，所述電子設(shè)備至少包括處理器和存儲器，所述處理器用于執(zhí)行存儲器

10.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲介質(zhì)內(nèi)存儲有可由電子設(shè)備執(zhí)行的計(jì)算機(jī)程序，當(dāng)所述程序在所述電子設(shè)備上運(yùn)行時(shí)，使得所述電子設(shè)備執(zhí)行如權(quán)利要求1-4中任一所述方法的步驟。

...

【技術(shù)特征摘要】

1.一種視覺編碼器訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

4.一種視覺描述方法，其特征在于，所述方法包括：

5.一種視覺編碼器訓(xùn)練裝置，其特征在于，所述裝置包括：

7.根據(jù)權(quán)利要求6所述的裝置...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：趙蕾，
申請(專利權(quán))人：新奧新智科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)