本發明專利技術涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質,其中方法包括:將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;提取蛋白質的初始邊特征和初始節點特征;將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;構建用于固定骨架蛋白質序列設計的GPD模型并訓練;基于GPD模型、節點特征和邊特征設計蛋白質序列。與現有技術相比,本發明專利技術具有更高的序列恢復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。
【技術實現步驟摘要】
一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質
[0001]本專利技術涉及蛋白質序列設計模型構建
,尤其是涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質。
技術介紹
[0002]蛋白質從頭設計(De novo protein design)旨在設計具有特定結構或功能的蛋白質。蛋白質設計是蛋白質工程的核心問題,例如利用蛋白質設計提高酶的催化效率、抗體的親和性等。蛋白質設計包括兩個關鍵任務:蛋白質主鏈骨架設計和固定骨架蛋白質序列設計(fixed
?
backbone protein sequence design)。固定骨架蛋白質序列設計旨在設計能折疊成特定蛋白質骨架結構的氨基酸序列,具體來說,設計的序列不僅需要折疊成所需的結構,還需要具有特定的功能。這個任務也被稱為蛋白質逆折疊問題(inverse protein folding problem)。
[0003]固定骨架蛋白質序列設計的方法可以分為兩類:基于經典能量函數的蛋白質序列設計和基于深度學習的蛋白質序列設計。基于經典能量函數的蛋白質序列設計,例如目前應用廣泛的Rosetta系列方法,通過搜索序列和構象的組合使得目標結構的能量函數最小化?;诮浀淠芰亢瘮档牡鞍踪|序列設計方法不僅依賴于對蛋白質能量函數的精確定義,也依賴于采樣算法的效率。其準確性和計算速度有待進一步提高。隨著深度學習技術的快速發展,近年來基于深度學習的蛋白質序列設計取得良好效果?;谏疃葘W習的蛋白質序列設計可以提供快速和精確的蛋白質設計,引起了蛋白質設計領域的一場變革。
[0004]Po
?
Ssu Huang實驗室構建了一個3D CNN模型,以自回歸的方式預測殘基類型和rotamer二面角。ProteinSolver將節點編碼為氨基酸類型,邊編碼為氨基酸之間的距離,并將序列設計作為約束滿足問題。Structure Transformer將Transformer推廣到基于圖的蛋白質三維結構編碼中。ESM
?
IF1模型使用了AlphaFold2預測的1200萬個結構進行模型訓練。ProteinMPNN對Structure Transformer進行拓展,增加了一個虛擬的Cb原子和一個隨機解碼,而非正向解碼。上述這些方法致力于提高模型的序列恢復率(recovery),而忽略了設計序列之間的多樣性(diversity),導致設計的序列空間覆蓋度不足,使得設計序列往往與天然序列非常相似,特別是蛋白質核心序列。
[0005]理想情況下,設計的序列應該覆蓋較廣的蛋白質序列空間,具有較高的序列多樣性。當前部分方法也采用超參數來提高設計序列的多樣性和可變性。例如Structure Transformer和ABACUS
?
R通過超參數(Structure Transformer中的溫度T和ABACUS
?
R中的α)構造偏態分布來提高設計序列的多樣性和可變性。然而不同方法中超參數的取值不同,具有較強的主觀性。
技術實現思路
[0006]本專利技術的目的就是為了提供一種基于Graphormer算法的蛋白質序列設計方法、裝
置及存儲介質,在保持較高的序列恢復率的同時提高序列之間的多樣性。
[0007]本專利技術的目的可以通過以下技術方案來實現:
[0008]一種基于Graphormer算法的蛋白質序列設計方法,包括以下步驟:
[0009]S1、將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;
[0010]S2、提取蛋白質的初始邊特征;
[0011]S3、提取蛋白質的初始節點特征;
[0012]S4、將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;
[0013]S5、將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;
[0014]S6、構建用于固定骨架蛋白質序列設計的GPD模型并訓練,所述GPD模型包括依次連接的6個相同的Graphormer模塊、線性層處理和softmax,其中,Graphormer模塊基于Graphormer區塊建立,Graphormer區塊包括注意力矩陣;
[0015]S7、基于GPD模型、節點特征和邊特征設計蛋白質序列。
[0016]所述初始節點特征和初始邊特征都具有平移旋轉不變性。
[0017]所述初始邊特征包括距離矩陣、位移向量、旋轉四元數和殘基最短路徑。
[0018]所述初始節點特征包括二面角、預測的二級結構、氨基酸中心度、初始蛋白序列編碼。
[0019]所述將蛋白質初始節點特征和一個隨機矩陣進行拼接具體為:
[0020]分別計算二面角的正弦和余弦值得到二面角正弦矩陣和余弦矩陣;
[0021]分別將預測的二級結構和初始蛋白序列編碼輸入嵌入層得到二級結構嵌入矩陣和初始蛋白序列編碼嵌入矩陣;
[0022]基于隨機數種子生成正態分布的隨機矩陣;
[0023]對二面角正弦矩陣和余弦矩陣、二級結構嵌入矩陣和初始蛋白序列編碼嵌入矩陣、氨基酸中心度矩陣、隨機矩陣進行拼接。
[0024]所述Graphormer模塊包括依次連接的Graphormer區塊、第一正則化模塊、前饋模塊和第二正則化模塊,其中,所述第一正則化模塊的輸入包括Graphormer區塊的輸出和初始節點特征,第二正則化模塊的輸入包括前饋模塊的輸出和第一正則化模塊的輸出。
[0025]所述Graphormer區塊的具體處理過程為:對輸入的節點特征分別通過三個線性層,得到Q,K,V矩陣,對Q矩陣和K矩陣進行矩陣乘法處理得到結果矩陣,將結果矩陣與邊特征通過softmax處理后輸入注意力矩陣,并對注意力矩陣的輸出與V矩陣進行矩陣乘法處理后通過一個線性層,得到Graphormer區塊的輸出。
[0026]所述GPD模型采用Adam優化器最小化損失函數來進行訓練,損失函數為分類交叉熵。
[0027]一種基于Graphormer算法的蛋白質序列設計裝置,包括存儲器、處理器,以及存儲于所述存儲器中的程序,所述處理器執行所述程序時實現如上述所述的方法。
[0028]一種存儲介質,其上存儲有程序,所述程序被執行時實現如上述所述的方法。
[0029]與現有技術相比,本專利技術具有以下有益效果:
[0030](1)本專利技術的GPD模型直接將Graphormer應用于基于圖的蛋白質三維結構表示,相比于傳統的Transformer架構,GPD模型在注意力矩陣中嵌入邊特征,使得網絡能夠同時綜合節點特征和邊特征。
[0031](2)本專利技術在節點特征中加入通過隨機數種子產生的正態分布隨機矩陣,使得生成的序列具有多樣性,拓寬了序列的潛在設計空間。
附圖說明
[0032]圖1為本專利技術的方法流程本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,包括以下步驟:S1、將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;S2、提取蛋白質的初始邊特征;S3、提取蛋白質的初始節點特征;S4、將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;S5、將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;S6、構建用于固定骨架蛋白質序列設計的GPD模型并訓練,所述GPD模型包括依次連接的6個相同的Graphormer模塊、線性層處理和softmax,其中,Graphormer模塊基于Graphormer區塊建立,Graphormer區塊包括注意力矩陣;S7、基于GPD模型、節點特征和邊特征設計蛋白質序列。2.根據權利要求1所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始節點特征和初始邊特征都具有平移旋轉不變性。3.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始邊特征包括距離矩陣、位移向量、旋轉四元數和殘基最短路徑。4.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始節點特征包括二面角、預測的二級結構、氨基酸中心度、初始蛋白序列編碼。5.根據權利要求4所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述將蛋白質初始節點特征和一個隨機矩陣進行拼接具體為:分別計算二面角的正弦和余弦值得到二面角正弦矩陣和余弦矩陣;分別將預測的二級結構和初始蛋白序列編碼輸入嵌...
【專利技術屬性】
技術研發人員:陳海峰,魏婷,
申請(專利權)人:上海交通大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。