一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質制造方法及圖紙

技術編號：36690813 閱讀：28 留言：0更新日期：2023-02-27 19:58

本發明專利技術涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質，其中方法包括：將蛋白質結構以圖的方式進行表示：以單個氨基酸為節點，以氨基酸之間的聯系作為邊；提取蛋白質的初始邊特征和初始節點特征；將蛋白質初始節點特征和一個隨機矩陣進行拼接，并通過線性層調整維度，加上位置編碼信息，得到節點特征，作為GPD模型的輸入；將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層，得到邊特征，嵌入到GPD模型的注意力矩陣中；構建用于固定骨架蛋白質序列設計的GPD模型并訓練；基于GPD模型、節點特征和邊特征設計蛋白質序列。與現有技術相比，本發明專利技術具有更高的序列恢復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質

[0001]本專利技術涉及蛋白質序列設計模型構建
，尤其是涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質。

技術介紹

[0002]蛋白質從頭設計(De novo protein design)旨在設計具有特定結構或功能的蛋白質。蛋白質設計是蛋白質工程的核心問題，例如利用蛋白質設計提高酶的催化效率、抗體的親和性等。蛋白質設計包括兩個關鍵任務：蛋白質主鏈骨架設計和固定骨架蛋白質序列設計(fixed
?
backbone protein sequence design)。固定骨架蛋白質序列設計旨在設計能折疊成特定蛋白質骨架結構的氨基酸序列，具體來說，設計的序列不僅需要折疊成所需的結構，還需要具有特定的功能。這個任務也被稱為蛋白質逆折疊問題(inverse protein folding problem)。
[0003]固定骨架蛋白質序列設計的方法可以分為兩類：基于經典能量函數的蛋白質序列設計和基于深度學習的蛋白質序列設計。基于經典能量函數的蛋白質序列設計，例如目前應用廣泛的Rosetta系列方法，通過搜索序列和構象的組合使得目標結構的能量函數最小化?；诮浀淠芰亢瘮档牡鞍踪|序列設計方法不僅依賴于對蛋白質能量函數的精確定義，也依賴于采樣算法的效率。其準確性和計算速度有待進一步提高。隨著深度學習技術的快速發展，近年來基于深度學習的蛋白質序列設計取得良好效果?；谏疃葘W習的蛋白質序列設計可以提供快速和精確...

【技術保護點】

【技術特征摘要】
1.一種基于Graphormer算法的蛋白質序列設計方法，其特征在于，包括以下步驟：S1、將蛋白質結構以圖的方式進行表示：以單個氨基酸為節點，以氨基酸之間的聯系作為邊；S2、提取蛋白質的初始邊特征；S3、提取蛋白質的初始節點特征；S4、將蛋白質初始節點特征和一個隨機矩陣進行拼接，并通過線性層調整維度，加上位置編碼信息，得到節點特征，作為GPD模型的輸入；S5、將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層，得到邊特征，嵌入到GPD模型的注意力矩陣中；S6、構建用于固定骨架蛋白質序列設計的GPD模型并訓練，所述GPD模型包括依次連接的6個相同的Graphormer模塊、線性層處理和softmax，其中，Graphormer模塊基于Graphormer區塊建立，Graphormer區塊包括注意力矩陣；S7、基于GPD模型、節點特征和邊特征設計蛋白質序列。2.根據權利要求1所述的一種基于Graphormer算法的蛋白質序列設計方法，其特征在于，所述初始節點特征和初始邊特征都具有平移旋轉不變性。3.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法，其特征在于，所述初始邊特征包括距離矩陣、位移向量、旋轉四元數和殘基最短路徑。4.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法，其特征在于，所述初始節點特征包括二面角、預測的二級結構、氨基酸中心度、初始蛋白序列編碼。5.根據權利要求4所述的一種基于Graphormer算法的蛋白質序列設計方法，其特征在于，所述將蛋白質初始節點特征和一個隨機矩陣進行拼接具體為：分別計算二面角的正弦和余弦值得到二面角正弦矩陣和余弦矩陣；分別將預測的二級結構和初始蛋白序列編碼輸入嵌...

【專利技術屬性】
技術研發人員：陳海峰，魏婷，
申請(專利權)人：上海交通大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質制造方法及圖紙

一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質制造方法及圖紙