基于氨基酸微環境與EMO神經網絡的蛋白質設計方法技術

技術編號：41595235 閱讀：20 留言：0更新日期：2024-06-07 00:05

本發明專利技術屬于智能細胞生物識別領域，具體涉及一種基于氨基酸微環境與EMO神經網絡的蛋白質設計方法。該方法包括：初始蛋白質原子特征構建，氨基酸微環境特征構建，深度特征構建，MLP分類器分類，共4個階段。本方法通過蛋白質的結構信息構造了蛋白質原子的特征信息，并使用原子的特征信息搭建蛋白質的氨基酸的局部微環境，并搭建了一個全新的深度網絡來從抽取、鑒別氨基酸微環境中的深度生物信息特征，最后采用MLP分類器預測最符合深度生物信息特征的氨基酸類別，從而實現最終的蛋白質序列設計。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于智能細胞生物識別領域，具體涉及一種基于氨基酸微環境與emo神經網絡的蛋白質設計方法。

技術介紹

1、計算蛋白質設計(computational?protein?design,下稱cpd)是指一種利用計算機算法和模型來預測和優化蛋白質結構和功能的方法，其目標是通過計算方法來尋找最優的蛋白質結構，以實現特定的生物學或應用目的。在過去的幾十年里，cpd在酶工程、疫苗設計、抗體設計、膜蛋白設計、蛋白質交互作用等眾多領域獲得了巨大的成功。近期發表在nature的工作中，hongyuan?lu等人利用mutcompute成功設計出了具有高穩定性和高水解活性的pet酶，該酶能在1周時間內水解51種pet塑料，有望解決困擾人類社會的塑料垃圾問題。持續的研究表明，cpd能在健康、醫療、環境、化工等各個領域造福人類社會。雖然cpd取得了顯著的進展，但是如何精確地設計蛋白質的結構和功能仍然是一個巨大的挑戰。

2、傳統的cpd研究主要依據是anfinsen的折疊熱力學假說。該假說的核心思想是：自然條件下，蛋白質總是折疊到自由能最低的構象。這也就意味著，蛋白質的3維結構完全是由其氨基酸序列所確定的。一個蛋白質序列對應了一種三維結構，但是相似的三維結構可能對應了多個蛋白質序列。傳統cpd的主要研究內容就是從3維結構出發設計出自由能最低的序列。傳統cpd方法的關注點有兩個，其一是設計自由能計算函數，其二是尋找所需結構的最低能量氨基酸序列。基于能量函數的方法受限于本身能量函數的設計以及啟發性算法尋優容易陷入局部最優的缺點，設計出的蛋白

3、基于深度學習的cpd方法致力于從蛋白質氨基酸殘基的周圍化學結構特征中學習氨基酸殘基與其周圍結構的對應關系，這樣就可以在不破壞蛋白質骨架的情況下，修改蛋白質的部分氨基酸，從而實現蛋白質設計。根據所使用的神經網絡結構，這些方法主要分為基于多層感知機(multi-layer?perceptron,下稱mlp)的方法、基于卷積神經網絡的方法以及基于圖卷積神經網絡的方法。但已經存在的方法仍然存在以下幾點不足：(1)基于mlp的方法受限于手工特征的計算，通過經驗設計出的手工特征有其局限性，這使得基于mlp方法的預測準確率陷入了瓶頸；(2)基于卷積神經網絡的方法則是對氨基酸的原子三維環境特征進行建模。為了克服三維空間原子稀疏性，加速網絡的收斂，該類方法均使用了高斯函數對三維環境特征進行了模糊處理。這種做法損失了部分信息，影響了最終的預測性能；(3)基于圖神經網絡的方法對原子環境建立圖結構，優點是克服了原子在空間的稀疏性，缺點是忽略了原子的三維空間位置信息。因此，研究能從稀疏的原子環境中預測氨基酸種類從而設計蛋白質的方法依然是一個具有重要價值的挑戰性工作。

技術實現思路

1、現有的cpd方法為了加快網絡收斂采取了不同的處理方法，這樣做損失了蛋白質的部分結構信息，在本專利技術中，搭建了一種新的神經網絡模型，可以從稀疏的氨基酸微環境中識別出氨基酸種類，從而實現蛋白質的設計。該方法參考了emo模型中的逆殘差移動模塊，以及transformer模型中的多頭自注意力機制，使得網絡能關注稀疏的氨基酸微環境的重要組成部分，從而高效且精確的進行cpd任務。

2、本專利技術的技術方案如下：

3、基于氨基酸微環境與emo神經網絡的蛋白質設計方法，包括以下四個階段：初始蛋白質原子特征構建，氨基酸微環境特征構建，深度特征構建，mlp分類器分類，4個階段的步驟如下：

4、第一階段：初始蛋白質原子特征構建。該階段包含3個步驟，分別為給蛋白質pdb文件添加h原子，計算每個原子的自由電荷(free?charge，下稱fc)和溶劑可及表面積(solvent?accessible?surface?area，下稱sasa)，以及構造每個原子的特征向量，其具體步驟如下：

5、第一步：使用pdb2pqr生物處理軟件對目標蛋白質添加h原子，計算添加h原子后的每個蛋白質原子的fc；

6、第二步：使用freesasa生物處理軟件計算每個蛋白質原子的溶劑可及表面積sasa；

7、第三步：將目標蛋白的每個原子別編碼成7維特征向量，前5維表示o、c、n、s、h原子的one-hot編碼，后2維表示原子的fc和sasa。；

8、第二階段：氨基酸微環境特征構建。記目標蛋白的氨基酸數為m，從蛋白質的每個氨基酸原子特征向量獲取氨基酸微環境的步驟如下：

9、第四步：對于非甘氨酸(gly)，以氨基酸的cβ原子為中心，以氨基酸的n-cα鍵的方向為x軸方向，以垂直于n-cα-c平面且與cα-cβ鍵方向點積為正的方向為z軸方向，以與xz平面正交的方向為y軸方向，建立尺寸為的立方體3d網格，單元尺寸為

10、第五步：對于甘氨酸(gly)，由于其沒有cβ原子，其cβ的坐標由其余19種氨基酸n-cα鍵長以及n-cα-cβ鍵角計算而來，其余步驟與第四步相同；

11、第六步：去除中心氨基酸的r基團原子，每個單元網格被編碼成落入其中原子的特征向量之和，一個氨基酸的微環境特征維度為7×20×20×20。

12、第七步：重復第一到三步，最終將目標氨基酸被編碼成m個維度為7×20×20×20氨基酸微環境樣本。

13、第三階段：深度特征構建。構造深度特征需要經過3個步驟，分別為初步特征提取，淺層特征提取，深層注意力特征提取。

14、該階段的具體步驟如下：

15、第一步：初步特征提取。將氨基酸微環境樣本輸入stem模塊，獲取初步特征f1；

16、stem模塊中包括若干cna(convlayer，normlayer，active)基礎模塊，cna模塊的結構如圖2.a所示，給定輸入ain，一個cna模塊可以由以下公式表達：

17、fcna(ain)＝factive(fnorm(fconv(ain)))???(1)

18、式中fconv表示3d卷積層，fnorm是標準化處理，factive是指激活函數。

19、stem模塊包含一個cna模塊一個批標準化層、一個se模塊、一個3d卷積層。給定輸入ain，一個se模塊可以由以下公式表達：

20、fse(ain)＝fcna(fcna(fgmp(ain)))???(2)

21、式中fgmp表示全局最大池化層。記b＝fcna(fbn(ain))，那么stem模塊可以表示為：

22、fstemm(ain)＝ain+fconv(b+fse(b)·b)???(3)

23、fbn表示批標準化層(batch_norm)。stem模塊的第一個cna模塊的標準化層為批標準化層，激活函數為silu；se模塊中的兩個cna模塊分別使用relu和sigmoid激活函數。

24、第二步：淺層特征提取。將初步特征f1依次輸入逆殘差移動模塊1、2，下采樣模塊1、本文檔來自技高網...

【技術保護點】

1.基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于，步驟如下：

2.如權利要求1所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述第七步中的EMOCPD模型，包括1個Stem模塊、4個iRMB模塊、4個MHSA-iRMB模塊、3個DownSample模塊、1個MLP分類器模塊；

3.如權利要求2所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述的Stem模塊結構如下：

4.如權利要求2所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述的iRMB模塊結構如下：

5.如權利要求2所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述的Down?Sample模塊結構如下：

6.如權利要求2所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述MHSA?iRMB模塊結構如下：

7.如權利要求2所述的基于氨基酸微環境與EMO神經網絡的蛋白質設計方法，其特征在于：所述的MLP分類器模塊結構如下：

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術