• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質制造方法及圖紙

    技術編號:36690813 閱讀:28 留言:0更新日期:2023-02-27 19:58
    本發明專利技術涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質,其中方法包括:將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;提取蛋白質的初始邊特征和初始節點特征;將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;構建用于固定骨架蛋白質序列設計的GPD模型并訓練;基于GPD模型、節點特征和邊特征設計蛋白質序列。與現有技術相比,本發明專利技術具有更高的序列恢復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。復率和更高的設計序列多樣性。

    【技術實現步驟摘要】
    一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質


    [0001]本專利技術涉及蛋白質序列設計模型構建
    ,尤其是涉及一種基于Graphormer算法的蛋白質序列設計方法、裝置及存儲介質。

    技術介紹

    [0002]蛋白質從頭設計(De novo protein design)旨在設計具有特定結構或功能的蛋白質。蛋白質設計是蛋白質工程的核心問題,例如利用蛋白質設計提高酶的催化效率、抗體的親和性等。蛋白質設計包括兩個關鍵任務:蛋白質主鏈骨架設計和固定骨架蛋白質序列設計(fixed
    ?
    backbone protein sequence design)。固定骨架蛋白質序列設計旨在設計能折疊成特定蛋白質骨架結構的氨基酸序列,具體來說,設計的序列不僅需要折疊成所需的結構,還需要具有特定的功能。這個任務也被稱為蛋白質逆折疊問題(inverse protein folding problem)。
    [0003]固定骨架蛋白質序列設計的方法可以分為兩類:基于經典能量函數的蛋白質序列設計和基于深度學習的蛋白質序列設計。基于經典能量函數的蛋白質序列設計,例如目前應用廣泛的Rosetta系列方法,通過搜索序列和構象的組合使得目標結構的能量函數最小化?;诮浀淠芰亢瘮档牡鞍踪|序列設計方法不僅依賴于對蛋白質能量函數的精確定義,也依賴于采樣算法的效率。其準確性和計算速度有待進一步提高。隨著深度學習技術的快速發展,近年來基于深度學習的蛋白質序列設計取得良好效果?;谏疃葘W習的蛋白質序列設計可以提供快速和精確的蛋白質設計,引起了蛋白質設計領域的一場變革。
    [0004]Po
    ?
    Ssu Huang實驗室構建了一個3D CNN模型,以自回歸的方式預測殘基類型和rotamer二面角。ProteinSolver將節點編碼為氨基酸類型,邊編碼為氨基酸之間的距離,并將序列設計作為約束滿足問題。Structure Transformer將Transformer推廣到基于圖的蛋白質三維結構編碼中。ESM
    ?
    IF1模型使用了AlphaFold2預測的1200萬個結構進行模型訓練。ProteinMPNN對Structure Transformer進行拓展,增加了一個虛擬的Cb原子和一個隨機解碼,而非正向解碼。上述這些方法致力于提高模型的序列恢復率(recovery),而忽略了設計序列之間的多樣性(diversity),導致設計的序列空間覆蓋度不足,使得設計序列往往與天然序列非常相似,特別是蛋白質核心序列。
    [0005]理想情況下,設計的序列應該覆蓋較廣的蛋白質序列空間,具有較高的序列多樣性。當前部分方法也采用超參數來提高設計序列的多樣性和可變性。例如Structure Transformer和ABACUS
    ?
    R通過超參數(Structure Transformer中的溫度T和ABACUS
    ?
    R中的α)構造偏態分布來提高設計序列的多樣性和可變性。然而不同方法中超參數的取值不同,具有較強的主觀性。

    技術實現思路

    [0006]本專利技術的目的就是為了提供一種基于Graphormer算法的蛋白質序列設計方法、裝
    置及存儲介質,在保持較高的序列恢復率的同時提高序列之間的多樣性。
    [0007]本專利技術的目的可以通過以下技術方案來實現:
    [0008]一種基于Graphormer算法的蛋白質序列設計方法,包括以下步驟:
    [0009]S1、將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;
    [0010]S2、提取蛋白質的初始邊特征;
    [0011]S3、提取蛋白質的初始節點特征;
    [0012]S4、將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;
    [0013]S5、將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;
    [0014]S6、構建用于固定骨架蛋白質序列設計的GPD模型并訓練,所述GPD模型包括依次連接的6個相同的Graphormer模塊、線性層處理和softmax,其中,Graphormer模塊基于Graphormer區塊建立,Graphormer區塊包括注意力矩陣;
    [0015]S7、基于GPD模型、節點特征和邊特征設計蛋白質序列。
    [0016]所述初始節點特征和初始邊特征都具有平移旋轉不變性。
    [0017]所述初始邊特征包括距離矩陣、位移向量、旋轉四元數和殘基最短路徑。
    [0018]所述初始節點特征包括二面角、預測的二級結構、氨基酸中心度、初始蛋白序列編碼。
    [0019]所述將蛋白質初始節點特征和一個隨機矩陣進行拼接具體為:
    [0020]分別計算二面角的正弦和余弦值得到二面角正弦矩陣和余弦矩陣;
    [0021]分別將預測的二級結構和初始蛋白序列編碼輸入嵌入層得到二級結構嵌入矩陣和初始蛋白序列編碼嵌入矩陣;
    [0022]基于隨機數種子生成正態分布的隨機矩陣;
    [0023]對二面角正弦矩陣和余弦矩陣、二級結構嵌入矩陣和初始蛋白序列編碼嵌入矩陣、氨基酸中心度矩陣、隨機矩陣進行拼接。
    [0024]所述Graphormer模塊包括依次連接的Graphormer區塊、第一正則化模塊、前饋模塊和第二正則化模塊,其中,所述第一正則化模塊的輸入包括Graphormer區塊的輸出和初始節點特征,第二正則化模塊的輸入包括前饋模塊的輸出和第一正則化模塊的輸出。
    [0025]所述Graphormer區塊的具體處理過程為:對輸入的節點特征分別通過三個線性層,得到Q,K,V矩陣,對Q矩陣和K矩陣進行矩陣乘法處理得到結果矩陣,將結果矩陣與邊特征通過softmax處理后輸入注意力矩陣,并對注意力矩陣的輸出與V矩陣進行矩陣乘法處理后通過一個線性層,得到Graphormer區塊的輸出。
    [0026]所述GPD模型采用Adam優化器最小化損失函數來進行訓練,損失函數為分類交叉熵。
    [0027]一種基于Graphormer算法的蛋白質序列設計裝置,包括存儲器、處理器,以及存儲于所述存儲器中的程序,所述處理器執行所述程序時實現如上述所述的方法。
    [0028]一種存儲介質,其上存儲有程序,所述程序被執行時實現如上述所述的方法。
    [0029]與現有技術相比,本專利技術具有以下有益效果:
    [0030](1)本專利技術的GPD模型直接將Graphormer應用于基于圖的蛋白質三維結構表示,相比于傳統的Transformer架構,GPD模型在注意力矩陣中嵌入邊特征,使得網絡能夠同時綜合節點特征和邊特征。
    [0031](2)本專利技術在節點特征中加入通過隨機數種子產生的正態分布隨機矩陣,使得生成的序列具有多樣性,拓寬了序列的潛在設計空間。
    附圖說明
    [0032]圖1為本專利技術的方法流程本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,包括以下步驟:S1、將蛋白質結構以圖的方式進行表示:以單個氨基酸為節點,以氨基酸之間的聯系作為邊;S2、提取蛋白質的初始邊特征;S3、提取蛋白質的初始節點特征;S4、將蛋白質初始節點特征和一個隨機矩陣進行拼接,并通過線性層調整維度,加上位置編碼信息,得到節點特征,作為GPD模型的輸入;S5、將蛋白質初始邊特征通過矩陣拼接之后再經過兩層線性層,得到邊特征,嵌入到GPD模型的注意力矩陣中;S6、構建用于固定骨架蛋白質序列設計的GPD模型并訓練,所述GPD模型包括依次連接的6個相同的Graphormer模塊、線性層處理和softmax,其中,Graphormer模塊基于Graphormer區塊建立,Graphormer區塊包括注意力矩陣;S7、基于GPD模型、節點特征和邊特征設計蛋白質序列。2.根據權利要求1所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始節點特征和初始邊特征都具有平移旋轉不變性。3.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始邊特征包括距離矩陣、位移向量、旋轉四元數和殘基最短路徑。4.根據權利要求2所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述初始節點特征包括二面角、預測的二級結構、氨基酸中心度、初始蛋白序列編碼。5.根據權利要求4所述的一種基于Graphormer算法的蛋白質序列設計方法,其特征在于,所述將蛋白質初始節點特征和一個隨機矩陣進行拼接具體為:分別計算二面角的正弦和余弦值得到二面角正弦矩陣和余弦矩陣;分別將預測的二級結構和初始蛋白序列編碼輸入嵌...

    【專利技術屬性】
    技術研發人員:陳海峰,魏婷
    申請(專利權)人:上海交通大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩免费人妻AV无码专区蜜桃 | 国产成人无码精品一区不卡| 少妇无码一区二区三区| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 亚洲av无码一区二区三区乱子伦 | 亚洲人成网亚洲欧洲无码| 日韩精品无码成人专区| 欧洲无码一区二区三区在线观看| 久久久久无码精品国产h动漫| 亚洲AV无码久久精品色欲| 无码人妻精品内射一二三AV| 中文字幕丰满伦子无码 | 无码精品人妻一区二区三区影院| av无码久久久久久不卡网站| 台湾无码AV一区二区三区| 中文字幕av无码无卡免费| 成年免费a级毛片免费看无码| 特级无码a级毛片特黄| 亚洲无码一区二区三区| 日日摸日日碰夜夜爽无码| 国产成人精品无码一区二区| 国产午夜鲁丝片AV无码免费| 人妻丰满熟妇AV无码区| 亚洲AV无码专区在线电影成人| 亚洲AV无码欧洲AV无码网站| 国产成年无码AV片在线韩国| 波多野结衣AV无码| 亚洲伊人成无码综合网| 丰满亚洲大尺度无码无码专线| 久久久久久亚洲Av无码精品专口| 亚洲日韩精品A∨片无码 | 毛片无码一区二区三区a片视频| 秋霞无码一区二区| 亚洲AV无码一区二区三区久久精品| 蜜桃无码AV一区二区| 无码亚洲成a人在线观看| 亚洲国产AV无码一区二区三区| 亚洲国产精品无码久久98| 亚洲精品久久无码av片俺去也| 精品亚洲A∨无码一区二区三区| 人妻无码中文久久久久专区|