• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于序列比對核函數預測信號肽及其斷裂點位置實現方法技術

    技術編號:2850520 閱讀:552 留言:0更新日期:2012-04-11 18:40
    一種基于序列比對核函數預測信號肽及其斷裂點位置實現方法,屬于生物工程技術領域。本發明專利技術采用全局序列比對以解決所研究的氨基酸序列長度不一致的難題,并計算兩氨基酸序列之間的統計相關性以表征兩者之間的相似度,通過將相似度矩陣轉換為非負定矩陣后經過空間轉換得到新坐標,從而解決不滿足非負定性條件的矩陣如何生成核矩陣的問題。對于新測定的氨基酸序列在新特征空間可預測其是否信號肽并判定其斷裂點位置。本發明專利技術提高了以往預測信號肽的正確率以及斷裂點的預測率,從而對于理解某些疾病的致病過程有極大促進作用,進而有助于開發有效的治療方案。

    【技術實現步驟摘要】

    本專利技術涉及的是一種生物工程
    的方法,具體的說,涉及的是一種。
    技術介紹
    目前信號肽的研究已成為生物信息學領域一個熱點。信號肽對于控制蛋白質的分泌路徑和指導蛋白質到達特定位置有重要作用,因此成為基因診療新藥領域的一個關鍵工具。但是隨著進入數據庫的信號肽序列的急劇增加,單純采用實驗的方式識別信號肽需要高昂的資金和大量的時間。于是開發模式識別、機器學習領域的算法用于自動識別新合成的蛋白質中的信號肽成為必然。基于模式識別、機器學習的算法用于自動識別預測信號肽及判定信號肽斷裂點位置的,可以比單純采用實驗的方式節省大量的時間和金錢,但是由于處理的氨基酸序列不同于以往傳統的模式識別和機器學習處理的數據,必須考慮下列要求1)氨基酸序列長度不一致的問題信號肽序列長度變化很大。這種多樣性使得信號肽的預測問題變得很困難。2)編碼問題氨基酸序列形式上表示為字母序列,通常需要進一步進行編碼為數字屬性方便處理。3)正確率問題信號肽的預測正確率至少要求達到90%,信號肽斷裂點的預測至少達到70%以上才算有意義。現已有針對此問題的初步探討。Heijne在1986首先針對信號肽預測問題提出了加權矩陣算法。然而加權矩陣算法對現今數據不能得到較高的正確率。2000年Nakai K提出了神經網絡可以得到較高的信號肽預測率,但是對斷裂點位置的正判率不是很高,另外對問題缺乏明確的物理解釋且容易出現過擬合現象。Henrik Nielsen等人提出用隱馬爾可夫模型HMM(Hidden Markov Model)來分類信號肽和信號錨。HMM的方法在區分信號肽和信號錨方面有所改善,但是在剪切點預測的方面結果不如其它經典方法。經對現有技術的文獻檢索發現,Chou在《ProteinsStructure,Function,and Genetics》(蛋白質結構、功能、遺傳學)2001,42,pp.136-139上發表的“Prediction of protein signal sequences and their cleavage sites”(“預測信號肽及其斷裂點位置”),以及Liu等在《Biochemical and BiophysicalResearch Communications》(生物化學與生物物理學研究快報)2005,338,pp.1005-1011上發表的“Prediction of protein signal sequences and theircleavage sites by statistical rulers”(“基于統計規則預測信號肽及其斷裂點位置”),均借助滑動窗分隔信號肽序列得到等長的氨基酸序列從而借助傳統的模式識別算法進行預測,這種算法可以得到較神經網絡高的信號肽預測率,但是對斷裂點的正判率仍然不高。
    技術實現思路
    本專利技術的目的在于針對現有技術的不足,提出一種,使其提高預測信號肽及判定信號肽斷裂點位置的正確率。本專利技術是通過以下技術方案實現的,本專利技術采用全局序列比對解決氨基酸序列長度不一致的難題,并利用兩氨基酸序列之間的全局序列比對值表征兩者之間的相似度,進而借助支持向量機理論中只需要核矩陣即可實現分類預測的有利條件完成預測任務。借助全局序列比對得到的相似度測度具有生物學上的普遍意義,如果由其產生的針對整個數據集的相似度矩陣能夠滿足核函數理論中對矩陣的非負定性的要求,即可以借助SVM等非常理想的分類工具實現預測功能。但是由于此相似度不滿足三角不等式,因此不能保證滿足核空間的非負定條件。本專利技術通過研究發現相似度矩陣的負特征值可以剔除然后經過空間轉換得到新坐標,從而解決不滿足非負定性條件的矩陣如何生成核矩陣的問題。對于新測定的氨基酸序列在新特征空間可預測其是否信號肽并判定其斷裂點位置。本專利技術方法按如下步驟進行1.屬性的數字化對每組數據分別處理,將氨基酸序列Pi的屬性描述映射成整數標記yi,以1表示信號肽0表示非信號肽。2.全局序列比對并建立相似度矩陣 氨基酸序列Pi和Pj的全局序列比對。針對數據庫中每兩個氨基酸序列,應用全局序列比對Needleman-wunsch算法可以將不同長度的氨基酸序列通過加入刪除點(gap)的方式對齊,另外序列Pi和Pj比對附加產生的評判值K(i,j)在本專利技術中將作為度量兩氨基酸序列的相似度。假設訓練集有N個氨基酸序列,依照步驟1計算每兩個對氨基酸序列對的全局比對,將所得相似度組成N×N相似度矩陣Si,j=K(i,j)。經過以下歸一化處理I 歸一化S&prime;(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>II 對角線歸一化S&prime;&prime;(i,j)=S&prime;2(i,j)S&prime;(i,i)S&prime;(j,j)]]>得到矩陣S″。通過以下步驟除去矩陣S″的負特征值設矩陣S″具有特征值Λ={λ1,λ2,…,λN}和相應的特征向量V={V1,V2,…,VN},區別于普通的特征值分解此處要求|&lambda;i|ViTVi=1]]>與ViTVj=0]]>其中i,j=1,2,…,N且i≠j;經過實驗證實矩陣S″只有少量負特征值且其絕對值相對正特征值小的多,因此可以通過大于零的特征值λi>0(i=1,2,…,N*≤N)近似重建新核矩陣S*=VD*V-1,其中D*=diag[&lambda;1,&lambda;2,...,&lambda;N*,0,...,0].]]>3.生成核矩陣得到新空間坐標由于新核矩陣滿足非負定性條件,定義Si,j*=(Xi,Xj)=XiTXj,]]>其中Xi=(x1i,x2i,...,xji,...xNi),]]>i,j=1,2…N,矩陣S*的非零特征值為λ1,λ2,…,λN*對應的特征向量V1,V2,…,VN*。記相關矩陣為C=1N&Sigma;j=1NXiXiT,]]>可以證明矩陣C的特征值為λ1/N(i=1,2…N*),對應的特征向量滿足Oi=&Sigma;j=1NvjiXj,]]>其中Vji為向量Vi的第j個元素。則氨基酸序列Pi的坐標可以表示為Xi0=((Xi,O1),(Xi,O2),&CenterDot;&CenterDot;&CenterDot;,(Xi,ON*))=(Si*V1,Si*V2,&CenterDot;&CenterDot;&CenterDot;Si*VN*),]]>Si*為矩陣S*的第i行。至此由核函數得到新空間的顯式坐標形式。4.訓練分類器并預測是否信號肽對新空間的N個氨基酸序列Pi(x1i,x2i,&CenterDot;&CenterDot;&CenterDot;xN*i)i=1,2,&CenterDot;&CenterDot;&CenterDot;N,]]>由訓練樣本集訓練SVM分類器。當SVM采用線性核時核矩陣即為S*的子矩陣,對未知屬性的序列預測其是否信號肽。5.預測信號肽斷裂點位置按照預測氨基酸序列與本文檔來自技高網
    ...

    【技術保護點】
    一種基于序列比對核函數預測信號肽及其斷裂點位置實現方法,其特征在于包括如下步驟:1)屬性的數字化:將氨基酸序列的是否屬于信號肽的文字描述映射成整數屬性并標記為y↓[i],以1表示信號肽、0表示非信號肽;2)全局序列比對并建立 相似度矩陣:對每組數據中的每兩條氨基酸序列應用全局序列比對Needleman-wunsch算法,記錄序列比對的結果;并將全局序列比對附加產生的評判值組成矩陣作為度量氨基酸序列間相似度的相似度矩陣;3)生成核矩陣得到新空間坐標:對于非 負定相似度矩陣只進行歸一化處理,***和***,其中(i,j=1,2,…224),計算矩陣S↑[*]=S″的特征值Λ={λ↓[1],λ↓[2],…,λ↓[N]}與特征向量V={V↓[1],V↓[2],…,V↓[N]},要求|λ↓[i]|×(V↓[i],V↓[i])=1且相處正交,新空間坐標為X↓[i]↑[0]=(S↓[i]↑[*]V↓[1],S↓[i]↑[*]V↓[2],…S↓[i]↑[*]V↓[N↑[*]]);4)訓練分類器并預測是否信號肽:分類器采用SVM分類器, 由已知屬性的N↓[1]個氨基酸序列訓練SVM分類器,訓練樣本屬性對為{X↓[i]↑[0],y↓[i]}i=1,2,…N↓[1],SVM采用線性核即為矩陣S↑[*]的子矩陣,由訓練所得分類器對未知屬性的N↓[2]=N-N↓[1]個樣本檢測;  5)預測信號肽斷裂點位置:按照預測信號肽與已知斷裂點信號肽的相似度降序排列,得到相似度從大到小的次序,借助于相似性大的氨基酸序列與預測信號肽的全局序列比對預測斷裂點位置。...

    【技術特征摘要】
    1.一種基于序列比對核函數預測信號肽及其斷裂點位置實現方法,其特征在于包括如下步驟1)屬性的數字化將氨基酸序列的是否屬于信號肽的文字描述映射成整數屬性并標記為yi,以1表示信號肽、0表示非信號肽;2)全局序列比對并建立相似度矩陣對每組數據中的每兩條氨基酸序列應用全局序列比對Needleman-wunsch算法,記錄序列比對的結果;并將全局序列比對附加產生的評判值組成矩陣作為度量氨基酸序列間相似度的相似度矩陣;3)生成核矩陣得到新空間坐標對于非負定相似度矩陣只進行歸一化處理,S&prime;(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>和S&prime;&prime;(i,j)=S&prime;2(i,j)S&prime;(i,i)S&prime;(j,j),]]>其中(i,j=1,2,…224),計算矩陣S*=S″的特征值Λ={λ1,λ2,…,λN}與特征向量V={V1,V2,…,VN},要求|λi|×(Vi,Vi)=1且相處正交,新空間坐標為Xi0=(Si*V1,Si*V2,&CenterDot;&CenterDot;&CenterDot;Si*VN*);]]>4)訓練分類器并預測是否信號肽分類器采用SVM分類器,由已知屬性的N1個氨基酸序列訓練SVM分類器,訓練樣本屬性對為{Xi0,yi}i=1,2,&CenterDot;&CenterDot;&CenterDot;N1,]]>SVM采用線性核即為矩陣S*的子矩陣,由訓練所得分類器對未知屬性的...

    【專利技術屬性】
    技術研發人員:劉惠劉丹青姚莉秀楊杰
    申請(專利權)人:上海交通大學
    類型:發明
    國別省市:31[中國|上海]

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲综合久久精品无码色欲| 久久久久久亚洲av成人无码国产| 高清无码午夜福利在线观看| 精品成在人线AV无码免费看| 亚洲精品无码久久毛片| 熟妇人妻无码中文字幕| 四虎成人精品国产永久免费无码| 岛国无码av不卡一区二区| 亚洲av成本人无码网站| 亚洲一区二区三区AV无码 | 无码熟妇人妻在线视频| 中文字幕无码久久精品青草| 亚洲av成本人无码网站| 久久精品国产亚洲AV无码偷窥| 亚洲精品无码专区久久同性男| 无码日韩人妻av一区免费| 一区二区三区人妻无码| 狠狠躁狠狠爱免费视频无码| 成人免费无遮挡无码黄漫视频| 久久久无码精品亚洲日韩蜜臀浪潮 | 亚洲AV无码一区二区三区鸳鸯影院 | 四虎影视无码永久免费| 国产乱人伦中文无无码视频试看| 乱色精品无码一区二区国产盗| 免费无码又爽又刺激一高潮| 国产成人无码aa精品一区| 色综合久久久无码中文字幕波多| 亚洲AV永久无码精品一福利| 久久精品国产亚洲AV无码娇色| 精品无码国产自产拍在线观看| 久久午夜夜伦鲁鲁片无码免费| 曰韩精品无码一区二区三区| 自慰无码一区二区三区| 国产成人无码av| 国产产无码乱码精品久久鸭| 成人午夜精品无码区久久| 亚洲日产无码中文字幕| 亚洲AV无码第一区二区三区| 精品三级AV无码一区| 无码精品国产dvd在线观看9久| 亚洲午夜无码久久久久软件|