重建混合策略的三維醫學圖像視覺語言模型預訓練方法技術

技術編號：45156733 閱讀：6 留言：0更新日期：2025-05-06 18:11

本發明專利技術公開了重建混合策略的三維醫學圖像視覺語言模型預訓練方法，屬于醫學影像計算技術領域，包括構建醫學圖像文本對數據集，語言文本掩碼重建策略，視覺圖像掩碼重建策略，語義感知融合策略，多任務聯合學習；本發明專利技術對大語言模型進行微調，使用微調的大語言模型提取醫學報告中的診斷及屬性信息并生成高效的提示，并且大語言模型具有較強的泛化能力，大大節省了人工標注的成本；本發明專利技術的語義感知融合策略，是將文本編碼器得到的文本特征和圖像編碼器得到的圖像特征相結合得到新的文本特征，使文本提前感知圖像的診斷及屬性信息，進一步優化圖像和文本在嵌入空間中的對齊，提升了預訓練的效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于醫學影像計算，具體涉及重建混合策略的三維醫學圖像視覺語言模型預訓練方法。

技術介紹

1、視覺語言模型被廣泛定義為可以在大規模圖像-文本對上學習以提高多粒度下游視覺和語言任務的多模態模型。視覺語言模型通常由三個元素組成：圖像編碼器，文本編碼器以及融合兩個編碼器的信息的學習策略。由于損失函數是圍繞上述模型結構和學習策略設計的，所以需要將上述關鍵元素緊密耦合在一起。在傳統方法中，最具有代表性的方法是clip，它展現了在視覺和語言數據之間學習相互信息的巨大潛力。最近更多的研究表明，細粒度上下文對齊有利于模型學習更加具有代表性的表示，其中，blip方法通過利用視覺語義上下文來重建文本。然而在更加具有挑戰性的醫學領域，例如醫學報告，對準確性的要求更為嚴格，上述方法難以滿足這種需求。

2、為了解決該問題，近期的醫學視覺語言模型通過不同的預訓練方法提升模型學習的效率，例如，圖像文本對的醫學視覺表示的對比學習方法和少樣本自監督對比學習預訓練方法，通過直接最大化全局表示之間的互信息來對模型進行預訓練。sat提出對齊配對圖像補丁和單詞的細粒度特征。biovil?它利用配對的數據樣本試圖理解復雜的醫學報告。medklip使用三元組提取模塊作為額外的監督信號提取與醫學相關的信息。

3、申請號為?202210903886.5的專利文獻公開了一種醫學多模態模型的預訓練方法及裝置。所述的目標醫學圖文樣本數據自舉方法并不能生成高質量的醫學-文本對，且所述的多模態混合編解碼器med并沒有對特征進行較好融合，圖像和文本特征之間缺

4、申請號為?202410135051.9?的專利文獻公開了一種基于上下文感知的醫學視覺語言預訓練方法，系統及應用。所述的蒸餾報告并沒有生成優質的提示文本，且所述的多尺度上下文融合方式集成視覺特征和文本嵌入并沒有在嵌入空間中很好地對齊視覺和文本特征，這使得預訓練模型在下游任務中不具有性能上的優勢。

5、因此，需要一種能夠生成高質量的文本，并且能夠更好融合圖像特征和文本特征的預訓練方法。

技術實現思路

1、本專利技術的目的在于提供一種基于大語言模型及重建混合策略的視覺語言模型預訓練方法，使用包含大語言模型提取文本信息策略，語義感知融合策略與高階掩碼重建任務聯合學習的預訓練方法，提升下游醫學各項視覺或語言任務的性能，以克服現有技術對圖像和文本特征沒有進行較好融合，圖像和文本特征之間缺乏感知能力的有效手段的不足。

2、為了達到上述目的，本專利技術提供以下技術方案：

3、第一方面，本專利技術提供重建混合策略的三維醫學圖像視覺語言模型預訓練方法，具體包括以下步驟：

4、s1，構建醫學圖像文本對數據集，所述醫學圖像文本對數據集包括三維醫學圖像和醫學領域報告；

5、s2，提取并生成文本信息：提取s1中醫學圖像文本對數據集的醫學領域報告的診斷及屬性信息生成模板對應的文本；

6、s3，文本特征生成：將s2生成的文本進行隨機掩碼操作，得到文本掩碼，并將得到的文本掩碼輸入到文本編碼器中生成文本特征；

7、s4，圖像特征生成：對s1中醫學圖像文本對數據集的三維醫學圖像進行預處理，并將預處理后的三維醫學圖像進行隨機掩碼操作，得到三維醫學掩碼圖像，將得到的三維醫學掩碼圖像輸入到圖像編碼器中生成圖像特征；

8、s5，將s3中得到的文本特征輸入到文本解碼器得到重建文本；

9、s6，將s4中得到的圖像特征輸入到圖像解碼器得到重建圖像；

10、s7，語義感知融合策略：使用交叉注意力機制對s2和s3獲得的文本特征和圖像特征進行融合生成新的文本特征；

11、s8，文本重建任務：將s3中生成的文本特征和s5中得到的重建文本聯合計算文本重建損失；

12、s9，圖像重建任務：將s4中生成的圖像特征和s6中得到的重建圖像聯合計算圖像重建損失；

13、s10，圖像文本配對任務：將s4中的圖像特征和s7中得到的新的文本特征聯合進行對比學習，計算圖像文本配對損失；

14、s11，多任務聯合學習：對s8、s9和s10中不同任務得到損失進行加權求和。

15、進一步的，由于三維醫學數據集具備數據獲取難度大、標注成本高的特點，目前還沒有大規模構建的醫學圖像文本對數據集，因此首先收集大量公開可用的三維醫學圖像數據集和醫學領域報告數據，隨后對圖像數據和醫學報告進行配對，構建大規模醫學圖像文本對數據集，s1構建大規模醫學圖像文本對數據集的具體步驟包括：

16、s11，收集并整合不同的公開可用的三維醫學圖像數據集；

17、s12，從主要的醫學領域知識源收集醫學領域報告；

18、s13，檢查每個三維醫學圖像數據集中的目標并為其分配醫學領域報告，首先檢查每個數據集中的每個目標并為其分配醫學報告，這保證了醫學文本對數據集之間的精確性和明確性。

19、進一步的，由于醫學報告數據的復雜性、多樣性、專業性，導致難以通過人工方法從醫學報告中選擇合適且高效的提示，因此需要借助大語言模型強大的泛化性，根據醫學報告及模板生成優質的診斷提示。其次考慮到醫學報告中不僅包含診斷信息，也包含對應醫學圖像紋理及特征的描述信息，因此本專利技術借助大語言模型提取醫學報告中對醫學圖像屬性的描述信息，并根據模板生成可用的屬性提示。s2和s3中提取并生成文本信息并生成文本特征的具體步驟為：

20、使用大語言模型，并在公開可用的大規模醫學語言數據集上對大語言模型進行微調；

21、s22，對訓練微調后的大語言模型輸入醫學領域報告及相應的模板信息，訓練微調后的大語言模型能夠從中提取出對應的醫學領域報告的診斷及屬性信息并生成模板對應的診斷文本和屬性文本表示；

22、s23，將生成的模板對應的診斷文本和屬性文本作為提示進行隨機掩碼操作，其中掩碼概率固定是20%，得到文本掩碼，將文本掩碼輸入到文本編碼器中生成文本特征。

23、進一步的，由于三維醫學圖像數據具有數據稀疏、成像質量差、類別不平衡等特點，導致三維醫學圖像數據不能直接用于訓練，往往需要進行預處理生成視覺信息豐富的數據，提高模型訓練的速度，使模型具備良好的泛化能力，s4中預處理三維醫學圖像并生成圖像特征的具體步驟為：

24、s41，以三維醫學圖像中心為基準，設定中心區域；

25、s42，選取中心區域內的某個點為中心點進行裁剪，得到三維醫學圖像塊x，x表示單個圖像塊；

26、s43，將得到三維醫學圖像塊x進行隨機掩碼操作，其中掩碼概率固定是20%，得到三維醫學掩碼圖像，將得到的三維醫學掩碼圖像輸入到圖像編碼器中生成圖像特征。

27、進一步的，s3中獲取文本特征的具體步驟為：

28、將獲得的診斷文本和屬性文本切分為單詞；

29、在診斷文本序列和屬性文本序列的開始本文檔來自技高網...

【技術保護點】

1.重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S1構建大規模醫學圖像文本對數據集的具體步驟包括：

3.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S2和S3中提取并生成文本信息并生成文本特征的具體步驟為：

4.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S4中預處理三維醫學圖像并生成圖像特征的具體步驟為：

5.根據權利要求2所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S3中獲取文本特征的具體步驟為：

6.根據權利要求4所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S4中獲取圖像特征的具體步驟如下：

7.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，S7中圖像特征和文本特征的融合具體步驟為：

8.根據權利要求1所述的重建混合

9.一種電子設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1-8任一項所述方法的步驟。

10.一種計算機可讀存儲介質，用于存儲計算機指令，其特征在于，所述計算機指令被處理器執行時實現權利要求1-8任一項所述方法的步驟。

...

【技術特征摘要】

1.重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，s1構建大規模醫學圖像文本對數據集的具體步驟包括：

3.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，s2和s3中提取并生成文本信息并生成文本特征的具體步驟為：

4.根據權利要求1所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，s4中預處理三維醫學圖像并生成圖像特征的具體步驟為：

5.根據權利要求2所述的重建混合策略的三維醫學圖像視覺語言模型預訓練方法，其特征在于，s3中獲取文本特征的具體步驟為：

【專利技術屬性】
技術研發人員：焦李成，黃鐘健，周中舟，郝佳瑤，李玲玲，劉旭，陳璞花，馬文萍，楊淑媛，劉芳，
申請(專利權)人：西安電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術