System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品无码一二区免费,中文有码vs无码人妻,亚洲精品中文字幕无码AV
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種蛋白質-核酸結合殘基識別方法及相關設備技術

    技術編號:44493944 閱讀:4 留言:0更新日期:2025-03-04 18:00
    本申請實施例屬于人工智能技術領域,涉及一種蛋白質?核酸結合殘基識別方法及相關設備,該方法包括:獲取待識別蛋白質的氨基酸序列以及三維結構數據;將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。本申請能夠準確、可靠地識別出蛋白質的結合位點。

    【技術實現步驟摘要】

    本申請涉及人工智能,尤其涉及一種蛋白質-核酸結合殘基識別方法及相關設備


    技術介紹

    1、基于序列的蛋白質-核酸結合殘基識別方法依賴于蛋白質的一級結構(即氨基酸序列)。這種方法通常通過提取蛋白質序列中的局部或全局特征來進行殘基預測。近年來,隨著大規模蛋白質序列數據庫的構建和深度學習技術的進展,基于序列的預測方法得到了快速發展。

    2、早期的序列分析方法通常基于傳統的機器學習模型,如支持向量機(svm)、隨機森林(rf)和極限梯度提升(xgboost)等。這些方法主要依賴于蛋白質的理化性質和氨基酸特征,構建特征向量,并利用監督學習對這些特征進行分類。例如,yan等人提出了一種基于氨基酸理化性質的svm模型,能夠識別蛋白質中的關鍵結合殘基。這類方法的優點在于相對簡單,且不需要蛋白質的三維結構信息,因而計算成本較低。此外,序列數據相比于三維結構數據更容易獲取,因為可以直接通過測序技術獲得。然而,這類方法的主要局限在于它們無法捕捉蛋白質的三維空間信息,忽視了殘基的空間位置及其與核酸的相互作用關系,因此其預測性能在復雜結合位點的場景中往往不足。

    3、隨著大規模數據和計算能力的提升,深度學習技術開始廣泛應用于序列分析任務中。例如,近年來提出的大規模預訓練模型,如esm(evolutionary?scale?modeling)和protbert[8]等,顯著提高了序列分析的效果。這類模型通過從大量蛋白質序列中學習到深層次的上下文信息,可以更好地識別序列中的重要特征。rao等人提出的esm模型利用transformer結構對蛋白質序列進行建模,從數百萬蛋白質序列中學習到豐富的語義信息,從而能夠有效地捕捉結合殘基的位置特征。類似地,protbert通過對氨基酸序列的上下文編碼,使得模型能夠理解不同氨基酸之間的相互作用。然而,這些基于序列的深度學習方法仍然面臨一些局限性。首先,它們無法充分利用蛋白質的三維結構信息,而三維結構對于殘基的空間關系至關重要。其次,在某些情況下,僅憑序列信息難以區分結合位點的微小差異,特別是在高度保守的序列區域。因此,盡管基于序列的深度學習方法在特定場景下表現出色,但它們在預測復雜的結合位點時依然存在瓶頸。

    4、為了提升預測效果,許多研究者還嘗試通過引入蛋白質的進化信息(如pssm和hmmprofiles)來增強基于序列的模型。進化信息反映了蛋白質在不同物種中的保守性,能夠幫助識別重要的結合位點。jones等人使用了進化信息來改進基于序列的殘基識別模型,并通過組合序列特征和進化特征顯著提高了預測準確性。然而,進化信息的獲取通常依賴于多個序列比對(msa),這不僅計算開銷大,且在某些情況下(如蛋白質家族較少時)無法獲得足夠的信息。此外,進化信息主要基于序列相似性,對空間幾何特征的捕捉能力較弱。

    5、由此可見,傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。


    技術實現思路

    1、本申請實施例的目的在于提出一種蛋白質-核酸結合殘基識別方法及相關設備,以解決傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。

    2、為了解決上述技術問題,本申請實施例提供一種蛋白質-核酸結合殘基識別方法,采用了如下所述的技術方案:

    3、獲取待識別蛋白質的氨基酸序列以及三維結構數據;

    4、將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;

    5、將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;

    6、對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;

    7、將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。

    8、進一步的,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    9、根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:

    10、

    11、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。

    12、進一步的,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    13、調用初始多層感知機分類器,并基于自監督學習方式對所述初始多層感知機分類器進行模型訓練操作,得到所述訓練好的多層感知機分類器。

    14、進一步的,所述模型訓練操作的損失函數表示為:

    15、

    16、其中,zi和zj表示經過不同數據增強后的蛋白質特征向量,τ為溫度參數。

    17、進一步的,所述加權融合特征表示為:

    18、ffusion=α·fseq+β·fstruct

    19、其中,α和β是可學習的權重參數,分別控制序列特征和結構特征對最終預測的貢獻比例,fseq表示所述序列特征數據,fstruct表示所述結構特征數據。

    20、進一步的,所述概率信息表示為:

    21、pi=σ(w·ffusion+b)

    22、其中,w為權重矩陣,b為偏置項,σ為sigmoid激活函數,用于將輸出值歸一化到[0,1][0,1][0,1]區間。

    23、為了解決上述技術問題,本申請實施例還提供一種蛋白質-核酸結合殘基識別裝置,采用了如下所述的技術方案:

    24、數據獲取模塊,用于獲取待識別蛋白質的氨基酸序列以及三維結構數據;

    25、序列特征提取模塊,用于將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;

    26、結構特征提取模塊,用于將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;

    27、加權融合模塊,用于對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;

    28、識別模塊,用于將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。

    29、進一步的,所述裝置還包括:

    30、自適應調整模塊,用于根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:

    31、

    32、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。

    33、為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:

    34、包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如上所述的蛋白質-核酸結合殘基識別方法的步驟。

    35、為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,本文檔來自技高網...

    【技術保護點】

    1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:

    5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表示為:

    6.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述概率信息表示為:

    7.一種蛋白質-核酸結合殘基識別裝置,其特征在于,包括:

    8.根據權利要求7所述的蛋白質-核酸結合殘基識別裝置,其特征在于,所述裝置還包括:

    9.一種計算機設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如權利要求1至6中任一項所述的蛋白質-核酸結合殘基識別方法的步驟。

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如權利要求1至6中任一項所述的蛋白質-核酸結合殘基識別方法的步驟。

    ...

    【技術特征摘要】

    1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:

    5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表...

    【專利技術屬性】
    技術研發人員:李鎮孫思琦李煜周宇喆王晟崔曙光
    申請(專利權)人:香港中文大學深圳
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 麻豆精品无码国产在线果冻 | 国产午夜无码专区喷水| 亚洲AV色吊丝无码| 久久久久久av无码免费看大片| 人妻丰满熟妞av无码区| 国产精品无码A∨精品影院| 亚洲无码精品浪潮| 久久无码中文字幕东京热| 久久久久无码精品国产app | 无码人妻啪啪一区二区| 少妇无码AV无码专区在线观看| 国精品无码一区二区三区左线| 无码亚洲成a人在线观看| 无码国产精品一区二区免费模式| 国产日产欧洲无码视频无遮挡| 中文午夜人妻无码看片| 亚洲中文字幕久久精品无码VA| 中字无码av电影在线观看网站| 中文字幕无码一区二区免费| 人妻中文无码久热丝袜| 国产精品爽爽va在线观看无码 | 无码激情做a爰片毛片AV片| yy111111电影院少妇影院无码 | 日韩乱码人妻无码中文字幕视频| 日韩丰满少妇无码内射| 亚洲AV无码国产丝袜在线观看| 日韩欧精品无码视频无删节 | 亚洲AV无码一区二三区| 无码一区二区三区爆白浆| 亚洲精品无码mⅴ在线观看| 亚洲中文字幕无码中文字| 影音先锋中文无码一区| 亚洲av中文无码字幕色不卡| 亚洲熟妇无码av另类vr影视| 亚洲国产成人精品无码区花野真一| 伊人天堂av无码av日韩av| 白嫩少妇激情无码| a级毛片无码免费真人| 亚洲色无码一区二区三区| 国产在线拍偷自揄拍无码| 国产精品视频一区二区三区无码|